Normalisation et Validation des Données

Une structure identique, des données propres à chaque document

De la définition des champs au post-traitement, chaque valeur extraite arrive propre, validée et au bon format pour vos systèmes en aval.

Ce qui est inclus

Schémas au niveau de la boîte mail

Définissez votre schéma de champs une fois pour toutes. Chaque document reçu par la boîte mail est mappé sur cette même structure, prête pour vos intégrations en aval.

  • Champs simples pour les valeurs uniques, tableaux pour les listes
  • Instructions en langage naturel pour guider l’IA sur chaque champ
  • Modifiables à tout moment via l’interface ou l’API

Formatage par champ

Dates, nombres et adresses sont normalisés au format attendu par vos systèmes. Parseur déduit le bon format du contexte, avec valeurs par défaut configurables par boîte mail.

  • Dates reconnues quel que soit l’ordre, le séparateur ou la langue
  • Nombres traités avec tous séparateurs décimaux ou de milliers
  • Adresses géolocalisées et découpées en éléments structurés

Validation des données

Chaque valeur extraite est validée selon le schéma défini. Les échecs apparaissent dans l’interface, déclenchent un email et un webhook pour alerter équipes et systèmes.

  • Contrôle du schéma pour fiabiliser les sorties de l’IA
  • Champs obligatoires signalés dès qu’une valeur manque
  • Champs à choix qui rejettent toute valeur hors liste

Règles de post-traitement

Quand le formatage et la validation standards ne suffisent pas, ajoutez votre propre script Python. Les règles s’exécutent après extraction pour appliquer votre logique métier.

  • Fusionnez, scindez ou créez des champs à partir des extractions
  • Recherches externes ou transformations conditionnelles à la demande
  • Disponible à partir du plan Pro

Comment fonctionne la normalisation des données

Ce qui vient de se passer

Parsing de documents multi-moteurs

Vision AI, Text AI, modèles ou OCR ont extrait des champs structurés de chaque document.

En savoir plus
1

Mappage au schéma

Les données extraites sont rattachées au jeu de champs défini dans la boîte mail. Quel que soit le format d’origine du document, la sortie suit toujours la même structure de colonnes.

Champs de la boîte
Texte Fournisseur Acme SARL
Texte Facture n° FAC-0142
Date Émis le 2026-05-07
Nombre Total 2840
Tableau Articles 3 colonnes, 2 lignes
Article Qté Prix Conseil 12 200 € Équipement 2 220 €
2

Formatage

Chaque champ est formaté automatiquement selon sa configuration. Dates et nombres sont convertis aux conventions régionales, les noms découpés en prénom, nom et surnom, et les adresses structurées.

Date May 7, 2026 2026-05-07
Nombre 1 234,56 € 1234.56
Adresse 15 rue Rivoli, 75001 Paris
15 rue de Rivoli Paris Île-de-France 75001 France
3

Validation

Toutes les valeurs sont validées avant l’export. Les documents conformes passent à l’étape suivante, les autres sont mis de côté pour qu’aucune anomalie ne quitte Parseur sans être détectée.

Validation
Fournisseur Acme SARL
Émis le 2026-04-15
Total Obligatoire manquant
Statut refusé
Autorisés : ouvert payé clos
4

Post-traitement

Des règles Python optionnelles s’exécutent en dernier pour appliquer votre logique métier : fusionner ou scinder des champs, faire des recherches externes ou adapter les données à vos besoins.

post_process.py
def post_process(data):
if data["Total"] > 1000:
data["Livraison"] = "express"
else:
data["Livraison"] = "standard"
return data
Nombre Total 2840
Texte Livraison express

Ce qui se passe ensuite

Exports et intégrations en temps réel

Les données normalisées sont envoyées en temps réel à votre CRM, votre logiciel comptable ou votre base de données.

En savoir plus
Commencez maintenant

Des données propres, prêtes pour vos systèmes.

Définissez vos champs, choisissez les bons formats, et récupérez chaque extraction dans la structure attendue par vos workflows.

Offre gratuite incluse, sans carte bancaire
Premier document traité en moins de 2 minutes
Résiliez à tout moment, sans engagement

Foire aux questions

Questions fréquentes sur la normalisation et la validation dans Parseur : gestion des formats de date et de nombre, règles de validation et post-traitement Python.

La normalisation des données transforme les valeurs extraites brutes en données propres et structurées de façon homogène. Dates, nombres et adresses sont uniformisés et alignés sur un schéma fixe, pour que vos systèmes en aval reçoivent la même structure à chaque document traité.

Le champ Date de Parseur reconnaît tous les ordres, séparateurs et noms de mois dans toutes les langues, et utilise le contexte pour lever les ambiguïtés (ex. 03/04/2026). La valeur finale est normalisée au format choisi, pour que vos systèmes en aval reçoivent toujours la même forme.

Oui. Le format Nom complet sépare automatiquement prénom, surnom et nom. Pour les adresses, le format Adresse découpe et géolocalise l’information en plusieurs éléments structurés, sans intervention manuelle.

Oui. Chaque valeur extraite passe par un contrôle automatique du schéma. Les champs obligatoires signalent immédiatement les valeurs manquantes, et les champs à choix refusent toute entrée hors liste. Les erreurs sont visibles dans l’interface, notifiées par email et accessibles via webhook pour un suivi complet.

Oui. Grâce au post-traitement, vous pouvez ajouter des scripts Python qui s’exécutent après l’extraction et la validation standards. Combinez des champs, appliquez votre logique métier ou retravaillez la structure des données avant export. Cette fonctionnalité est disponible à partir du plan Pro.

Sans normalisation, chaque document produit une sortie différente : formats de date variables, séparateurs de nombres hétérogènes, noms et adresses non uniformisés. Les outils en aval finissent par rejeter ou mal interpréter ces valeurs. La normalisation règle le problème à la source et garantit des intégrations fiables dans la durée.

Le champ Nombre prend en charge tous les séparateurs décimaux et de milliers, les conventions européennes (1.234,56), américaines (1,234.56) et indiennes (1,00,00,000), ainsi que la notation comptable (parenthèses pour les négatifs). Parseur choisit le bon format via le contexte du document, ou applique la valeur par défaut configurée.

Parseur prend en charge les formats Texte, Date, Heure, Date-Heure, Nombre, Nom complet, Adresse et Champ à choix. Chaque type possède ses propres règles de parsing et de validation. Les champs standards capturent une valeur unique, les champs tableau récupèrent des données réparties sur plusieurs lignes.

Le document bascule en statut Échec du traitement plutôt que d’être exporté, et une notification par email est envoyée. Un webhook process-failed peut également être déclenché. Vous pouvez alors corriger le document manuellement ou brancher ces échecs sur votre monitoring interne.

Chaque boîte mail dispose de son propre schéma, appliqué à tous les documents qu’elle traite. Vous pouvez ainsi centraliser la collecte pour plusieurs fournisseurs et modèles de documents, tout en garantissant la même structure de données en sortie.