Normalisation et Validation des Données

Une structure identique, des données propres pour chaque document

Des schémas de boîte mail au post-traitement, chaque valeur extraite arrive propre, validée et prête pour les systèmes en aval.

Créer un compte gratuit

Ce qui est inclus

Schémas au niveau de la boîte mail

Un schéma cohérent est ce qui rend les intégrations et automatisations en aval véritablement fiables. Définissez vos champs une fois pour toutes et chaque document traité par la boîte mail correspondra à la même structure.

Champs standards pour les valeurs uniques, champs tableaux pour les données répétitives
Des instructions en langage naturel indiquent à l'IA ce qu'elle doit capturer pour chaque champ
Modifiez les champs à tout moment via l'interface utilisateur, ou par programmation via l'API

Formatage par champ

Les formats intégrés normalisent les dates, les nombres, les adresses, etc. Le bon format est déduit du contexte du document, avec les valeurs par défaut de la boîte mail comme solution de repli.

Dates parsées quel que soit l’ordre, le séparateur ou le nom du mois dans toutes les langues
Nombres parsés avec tous les séparateurs décimaux ou de milliers selon les formats régionaux
Les champs d'adresse géolocalisent et découpent les adresses en parties structurées

Validation des données

La validation automatisée des données vérifie chaque résultat extrait par rapport au schéma de la boîte mail. Les échecs apparaissent dans l'interface, déclenchent une notification par e-mail et activent un webhook, afin que les équipes opérationnelles et les outils en soient informés.

Le contrôle du schéma confirme que le résultat de l'IA correspond à la structure du champ
Le contrôle des champs obligatoires repère les valeurs manquantes à la source
Le contrôle des champs à choix signale les valeurs en dehors de la liste autorisée

Règles de post-traitement

Lorsque le formatage standard et la validation ne suffisent pas, ajoutez un petit script Python. Les règles s'exécutent après l'extraction pour remodeler les valeurs ou exécuter une validation personnalisée par rapport à votre logique métier.

Combinez, divisez ou calculez de nouveaux champs à partir des valeurs extraites
Appliquez une logique métier, des recherches ou des transformations conditionnelles
Disponible à partir du plan Pro

Comment fonctionne la normalisation des données

Ce qui vient de se passer

Extraction et Parsing de Documents par l'IA

Vision AI, Text AI, des modèles ou l'OCR ont extrait des champs structurés de chaque document.

Mappage au schéma

Les valeurs extraites sont mappées à l'ensemble fixe de champs défini pour la boîte mail. Chaque document, quelle que soit la mise en page source, se retrouve avec la même structure de colonnes en sortie.

Champs de la boîte

Texte Fournisseur Acme SARL

Texte Facture n° FAC-0142

Date Émis le 2026-05-07

Nombre Total 2840

Tableau Articles 3 colonnes, 2 lignes

Article Qté Prix Conseil 12 200 € Équipement 2 220 €

Formatage

Chaque champ passe par le format qui lui est configuré. Les dates et les nombres se normalisent selon les variations régionales en utilisant le contexte du document, les noms se séparent en prénom/deuxième prénom/nom de famille, les adresses sont parsées en parties structurées.

Date May 7, 2026 2026-05-07

Nombre 1 234,56 € 1234.56

Adresse 15 rue Rivoli, 75001 Paris

15 rue de Rivoli Paris Île-de-France 75001 France

Validation

Chaque résultat passe par les contrôles de validation avant de continuer. Les documents validés passent au post-traitement, les autres sont signalés pour que rien ne quitte Parseur sans être remarqué.

Validation

Fournisseur Acme SARL

Émis le 2026-04-15

Total Obligatoire manquant

Statut refusé

Autorisés : ouvert payé clos

Post-traitement

Les règles Python optionnelles s'exécutent en dernier, appliquant une logique métier que le formatage au niveau du champ ne peut exprimer. Combinez des champs, recherchez des données de référence ou mettez en forme la sortie pour qu'elle corresponde exactement à un contrat en aval.

post_process.py

def post_process(data):

if data["Total"] > 1000:

data["Livraison"] = "express"

else:

data["Livraison"] = "standard"

return data

Nombre Total 2840

Texte Livraison express

Ce qui se passe ensuite

Exports et intégrations en temps réel

Les données normalisées sont envoyées à votre CRM, votre système comptable ou votre base de données en temps réel.

Retour à toutes les fonctionnalités

Des données propres, prêtes pour vos systèmes.

Définissez les champs dont vous avez besoin, choisissez les formats qui conviennent et regardez chaque extraction arriver dans la bonne forme.

Offre gratuite incluse, sans carte bancaire

Premier document traité en moins de 2 minutes

Résiliez à tout moment, sans engagement

Foire aux questions

Questions fréquentes sur la normalisation et la validation de Parseur, des formats de date et de nombre aux règles de validation et au post-traitement Python.

La normalisation des données est l'étape qui transforme les valeurs extraites brutes en données propres et structurées de façon homogène. Les dates provenant de différents documents arrivent dans le même format, les nombres sont parsés correctement selon les conventions régionales, les adresses sont séparées en parties structurées, et chaque champ est mappé sur un schéma fixe, pour que les systèmes en aval reçoivent toujours la même structure.

Sans normalisation, chaque document produit une sortie légèrement différente : dates dans des ordres différents, nombres avec des séparateurs différents, noms et adresses mélangés dans des chaînes uniques. Les outils en aval finissent par rejeter des lignes ou stocker des données incohérentes. La normalisation règle ce problème à la source afin que les intégrations restent véritablement fiables.

Le champ Nombre parse n'importe quel séparateur décimal et de milliers dans les formats régionaux, y compris les conventions européennes 1.234,56 et américaines 1,234.56, les regroupements indiens lakh et crore comme 1,00,00,000, et la notation comptable où les parenthèses indiquent les négatifs comme ($123,456,789.12). Le bon format est déduit du contexte du document, avec les valeurs par défaut au niveau de la boîte mail comme solution de repli.

Parseur prend en charge les formats de champs Texte, Date, Heure, Date-Heure, Nombre, Nom complet, Adresse et Choix. Chaque format comporte ses propres règles de parsing et de validation, et les champs standards capturent des valeurs uniques tandis que les champs de tableau capturent des données répétitives ligne par ligne.

Le statut du document passe à Échec du traitement au lieu d'être exporté silencieusement, et une notification par e-mail est envoyée. Si un webhook process-failed est configuré, il se déclenche également. Vous pouvez examiner et corriger le document manuellement, ou intégrer les échecs à votre propre système de surveillance.

Chaque boîte mail possède son propre schéma et chaque document traité par la boîte mail correspond au même ensemble fixe de champs. Ainsi, une seule boîte mail peut ingérer des factures de nombreux fournisseurs différents, avec de nombreuses mises en page différentes, et toujours sortir la même structure de colonnes pour chaque ligne.

Définissez une seule fois les champs attendus par votre système en aval dans le schéma d'une boîte mail Parseur, et chaque document se conformera à cette structure. Les formats de champ standardisent les dates, les nombres, les noms et les adresses selon les variations régionales, la validation automatisée des données intercepte les valeurs manquantes ou invalides avant l'exportation, et le post-traitement Python optionnel gère toute logique métier que les formats standards ne peuvent exprimer. Les données arrivent dans vos systèmes déjà cohérentes, sans nécessiter de scripts de nettoyage intermédiaires.

Le champ Date de Parseur parse n'importe quel ordre, séparateur ou nom de mois dans toutes les langues, et utilise le contexte du document pour lever l'ambiguïté des valeurs ambiguës comme 03/04/2026. La sortie est normalisée vers un format cohérent afin que votre système en aval reçoive toujours la même structure.

Oui. Le format Nom complet sépare les noms en prénom, deuxième prénom et nom de famille. Le format Adresse géolocalise et sépare les adresses en composants structurés. Les deux s'exécutent automatiquement une fois le format du champ défini.

Oui. Chaque résultat est vérifié par rapport au schéma de la boîte mail, les règles des champs obligatoires interceptent les valeurs manquantes et les règles des champs à choix signalent les valeurs en dehors de la liste autorisée. Les échecs s'affichent dans l'interface utilisateur, envoient une notification par e-mail et déclenchent un webhook afin que les équipes opérationnelles et vos outils en soient informés.

Oui. Les règles de post-traitement vous permettent d'ajouter un petit script Python qui s'exécute après l'extraction et la validation standards. Utilisez-le pour combiner, diviser ou calculer de nouveaux champs à partir des valeurs extraites, appliquer une logique métier, effectuer des recherches ou mettre en forme la sortie pour qu'elle corresponde exactement à un contrat en aval. Disponible à partir du plan Pro.