Extraction de documents
Trois moteurs d'extraction, un seul outil
IA vision pour les documents visuels, IA texte pour le texte brut, modèles pour les formats fixes. Parseur choisit la bonne méthode pour chaque document, sans intervention de votre part.
Ce qui est inclus
Extraction par IA vision
Les modèles de vision lisent les pages comme des images, pas comme du texte. L'IA voit le document à la manière d'un lecteur humain, avec toute la mise en page et le contexte visuel.
- Idéale pour les PDF riches, les scans et les formulaires complexes
- Lit l'écriture manuscrite, les cases, les tampons et la mise en page
- Pilotée par des instructions en français, sans modèle à créer
Extraction par IA texte
Le document est d'abord converti en texte brut, via OCR si aucun calque texte n'est présent. L'IA ne lit que ce texte, sans la mise en page ni les images.
- Adaptée aux e-mails et aux PDF principalement textuels
- Utile quand la mise en page n'apporte aucune information utile
- Pilotée par des instructions en français, sans modèle à créer
Extraction par modèles
Ajoutez autant de modèles que nécessaire dans une même boîte aux lettres. Parseur applique le bon modèle à chaque document pour une sortie identique à chaque fois, sans passer par l'IA.
- Parfaite pour les formulaires et e-mails générés automatiquement
- Méthode la plus fiable quand la structure ne change jamais
- Configuration via un éditeur visuel, un modèle par type de document
Extraction de tableaux et de lignes
Chaque ligne de tableau devient un enregistrement à part entière, pas un champ fusionné. Compatible avec les trois moteurs. Les feuilles de calcul natives sont lues automatiquement.
- Gère les tableaux dont le nombre de lignes varie
- Prend en charge les tableaux qui s'étendent sur plusieurs pages
- Les moteurs IA séparent les lignes multi-lignes en champs distincts
OCR pour scans et images
La Reconnaissance Optique de Caractères lit le texte des scans, des photos prises au smartphone et des PDF entièrement composés d'images, puis alimente l'IA texte et les modèles.
- Fonctionne sur scans, photos mobiles et PDF image
- OCR multilingue dans plus de 200 langues, manuscrit inclus
- OCR Zonal et OCR Dynamique selon la rigidité de la mise en page
Prétraitement des documents
Une extraction fiable commence par un nettoyage du document entrant. Le prétraitement de Parseur s'appuie sur dix ans d'expérience et plus de 100 millions de documents traités en conditions réelles.
- Redresse les scans inclinés et relance l'OCR sur les textes corrompus
- Répare les PDF endommagés, les e-mails mal encodés et le HTML cassé
- Détecte automatiquement les formats locaux de dates et de nombres
Comment fonctionne l'extraction de documents
Ce qui vient de se passer
Réception des documents
Les documents sont arrivés par import manuel, par e-mail, via l'API ou depuis un espace de stockage connecté.
Prétraitement
Chaque document passe d'abord par une étape de nettoyage. Parseur corrige l'orientation des pages, redresse les scans inclinés et répare les contenus brouillés ou désorganisés si nécessaire.
OCR
Sur les scans, photos mobiles et PDF image, Parseur applique l'OCR pour récupérer le texte. Les documents dotés d'un calque texte natif sautent cette étape.
Choix du moteur
Parseur choisit automatiquement le bon moteur. Un modèle est appliqué en priorité s'il correspond au document. Sinon, l'IA vision prend le relais pour les pages visuelles, et l'IA texte pour le contenu principalement textuel.
Extraction
Le moteur retenu extrait les champs structurés du document selon le schéma de votre boîte aux lettres. Chaque champ est ensuite normalisé pour garantir la bonne mise en forme et la validation des données.
Ce qui se passe ensuite
Normalisation et validation des données
Les champs extraits sont vérifiés, mis en forme et prêts à être envoyés vers vos outils en aval.