OCR Zonal : extraire des données simplement
L'OCR Zonal va plus loin que l'OCR traditionnel en extrayant du texte à des endroits précis sur les pages. C'est le moyen le plus simple de transformer des documents en données structurées exploitables.
Comment fonctionne l'OCR Zonal ?
Utiliser l'OCR Zonal dans Parseur est très facile et intuitif. La création de champs pour extraire du texte est aussi simple que de compter jusqu'à 3.
-
1
Définissez une zone sur la page
- Localisez un élément de texte que vous souhaitez extraire et dessinez une zone par-dessus avec votre souris.
-
2
Nommez votre champ
- Cliquez sur le bouton « Créer un champ » et donnez à votre nouveau champ un nom pertinent.
-
3
Configurez les options du champ
- En option, personnalisez les options de votre champ, comme son format (date, heure, lieu, nom du contact) ou son caractère obligatoire.
-
Répétez
- Répétez l'opération pour chaque champ que vous souhaitez extraire. Parseur extraira ensuite les données aux emplacements définis pour chaque document avec une mise en page similaire.
Différences entre l'OCR et l'OCR Zonal
L'OCR Zonal est une avancée par rapport à l'OCR traditionnel. Plutôt que d'extraire l'intégralité du texte d'un document, l'OCR Zonal extrait des données structurées et exploitables dans vos workflows.
OCR traditionnel
Convertir un document en texte brut
L'OCR identifie tous les caractères d'un document et les convertit en texte brut.
L'OCR traditionnel est idéal pour indexer le contenu des documents et les rendre consultables. Mais il ne vous permettra pas de réutiliser facilement les données dans d'autres applications car les données restent non structurées.
OCR Zonal
Convertir un document en données structurées
L'OCR Zonal extrait le texte à des zones spécifiques que vous définissez sur la page et les convertit en données structurées, telles que JSON.
L'OCR Zonal est idéal pour transformer des documents (non structurés par nature) en données structurées. Comme le dessin de zones sur des documents est un processus visuel, l'OCR Zonal est facile à utiliser.
Quand utiliser l'OCR Zonal ? Avantages et inconvénients.
L'OCR Zonal est le moyen le plus simple d'extraire des données structurées à partir de documents. Mais vous devez garder à l'esprit ses limitations pour une utilisation optimale.
Avantages de l'OCR Zonal
-
✅
Contrôle total
- L'OCR Zonal vous permet d'extraire les données exactes qui vous intéressent, de nommer les champs de manière pertinente pour votre flux de travail et de normaliser son contenu (dates, numéros, adresse, etc.).
-
✅
Facilité de configuration
- La création de champs avec l'OCR Zonal ne pourrait pas être plus simple : il suffit de dessiner une zone sur chacun des champs dont vous avez besoin. Pas besoin de manipuler des règles d'parsing complexes ou des expressions régulières.
-
✅
Facile à déboguer et à ajuster
- Les champs extraits par OCR Zonal sont faciles à comprendre. En cas de problème, superposez visuellement la position du champ sur votre document actuel pour vérifier si sa position est correcte ou ajustez-la si besoin.
Limitations de l'OCR Zonal
-
❌
Ne peut pas gérer les champs qui « bougent »
- De par sa conception, l'OCR Zonal extrait le texte à une position fixe sur la page d'un document. Si la position d'un champ change d'un document à l'autre, vous risquez de capturer des données partielles ou incorrectes.
-
❌
Ne peut pas gérer les champs de taille variable
- Pour la même raison que ci-dessus, les champs capturés avec l'OCR Zonal ont une largeur et une hauteur fixes. La capture de données de taille variable comme les adresses ou les tableaux avec l'OCR Zonal est un défi.
-
❌
Difficulté à gérer les documents mal numérisés
- Les pages des documents mal numérisés peuvent varier en échelle et en orientation. Cela peut rendre l'OCR Zonal peu fiable pour ces types de documents, car la position de chaque champ à extraire varie légèrement d'une numérisation à l'autre.
Extraction intelligente de données avec l'OCR Dynamique
Les fonctionnalités d'OCR avancées de Parseur surmontent les limites de l'OCR Zonal en utilisant l'OCR Dynamique ainsi que les modèles multiples et la détection automatique de la mise en page.
OCR Dynamique
Avec l'OCR Dynamique, extrayez facilement du texte à partir de champs qui se déplacent horizontalement ou verticalement, ou qui changent de taille d'un document à l'autre.
Moteur de modèles puissant
Extrayez des données à partir de différentes mises en page en créant plusieurs modèles et en utilisant la détection automatique de la mise en page.
Le meilleur logiciel d'OCR
La précision de l'OCR de Parseur est la meilleure du marché. Il prend en charge la plupart des langues, y compris l'écriture manuscrite, et est incroyablement rapide.