Moteur OCR pour le traitement des documents PDF

Portrait of Sylvain Josserand
par Sylvain Josserand
5 mins de lecture
Dernière mise à jour le

Salut, c'est Sylvain, développeur chez Parseur. Nous venons de sortir notre plus grande nouveauté : un nouveau système pour parser les fichiers PDF visuellement.

Nouveau : Extraire les données des PDF visuellement

Le traitement des documents PDF avec l'OCR est la fonctionnalité la plus demandée sur notre page de vote des fonctionnalités.

Fiabilité améliorée pour les documents complexes

Auparavant, nous convertissions les documents PDF en texte, en essayant de préserver la mise en page originale des pages. Cela fonctionnait très bien pour les documents simples (et c'est pourquoi nous conservons le moteur de texte en plus du nouveau).

Cependant, cette méthode rendait l'extraction de données fiable depuis des PDF complexes particulièrement difficile pour notre ancien moteur basé sur le texte.

C'est pourquoi nous introduisons un nouveau moteur de traitement, appelé OCR (pour Optical Character Recognition). L'éditeur de modèles OCR vous permet de créer des modèles en dessinant des boîtes autour du texte que vous souhaitez extraire. Vous pouvez également définir des étiquettes qui agissent comme des points d'ancrage dans votre document, aidant le moteur à positionner les champs dans la page.

Vous trouverez des informations plus détaillées sur notre page d'assistance ici : Créer votre premier modèle OCR.

Champs optionnels, enfin !

Ce nouveau moteur vous permet de définir des champs optionnels, et est plus résistant aux petits changements dans la mise en page du document. Il est également plus rapide pour construire des modèles, et plus facile de les ajuster, sans avoir à les créer de zéro. En effet, vous pouvez attacher plusieurs échantillons à un modèle donné. Cela vous permet de définir des champs qui peuvent apparaître sur certains documents mais pas sur tous.

Rétro-compatibilité complète

Toutes les fonctionnalités actuelles, telles que les tableaux, les métadonnées, le post-traitement et les champs statiques, continuent à fonctionner avec le nouveau moteur. Le format des données de sortie est le même, les webhooks sont inchangés.

Ce nouveau moteur fonctionne en parallèle avec le moteur actuel, et vous pouvez même mélanger les modèles des deux moteurs dans la même boîte aux lettres, pour obtenir le meilleur des deux mondes.

Si vous avez des modèles textuels et des modèles OCR dans votre boîte aux lettres, le modèle comportant le plus de champs aura la priorité sur les autres.

Tarification à la page

Un crédit est désormais comptabilisé pour chaque page traitée avec succès. Si un document n'est pas composé de plusieurs pages (comme un long courriel ou une feuille de calcul), alors un seul crédit est comptabilisé lorsque ce document est traité avec succès, quelle que soit la longueur du document, comme d'habitude.

Et ensuite ?

Une fois la phase bêta terminée et le nouveau moteur OCR disponible pour tous, nous prévoyons de le rendre compatible avec tous les documents HTML tels que les e-mails et les pages web.

Mises à jour en direct sur l'avancement du lancement public

Avril 2022

  • Ajout d'une configuration personnalisée des marges d'en-tête et de pied de page pour les champs de tableau.
  • Ajout d'une option pour diviser un PDF en plusieurs documents toutes les X pages.
  • Ajout d'options de fusion de lignes aux champs de tableau.
  • Amélioration des messages d'erreur au niveau du champ dans l'éditeur de modèle et le débogueur.
  • Amélioration de la précision du moteur de traitement.
  • Amélioration de l'expérience utilisateur sur l'éditeur de modèle.
  • Correction de bugs qui nous ont été signalés par nos courageux bêta-testeurs.

Mai 2022

  • Intégration d'un plus grand nombre d'utilisateurs au programme de bêta-test.
  • Ajout de la gestion des exemples de modèles (ajouter une description, supprimer des exemples).
  • Amélioration de l'éditeur de modèle pour mettre en évidence les champs optionnels, les étiquettes liées aux champs au survol et vice-versa.
  • Amélioration de la précision de l'extraction de texte en utilisant la couche de texte encodée dans le PDF plutôt que l'OCR, si elle est présente.
  • Ouverture du programme bêta à tous par le biais d'une inscription sur la page du compte.
  • Élimination des bogues signalés par nos clients.

Juin 2022

  • Nous sommes proches de la sortie publique. Plusieurs clients utilisent déjà le nouveau moteur tous les jours pour traiter leurs PDF !
  • Intégration d'un plus grand nombre d'utilisateurs au programme de bêta-test.
  • Amélioration de la détection des lignes et de l'extraction des champs multilignes.
  • Amélioration de la détection et de l'extraction des lignes et des cellules de tableau.
  • Création d'une documentation d'aide supplémentaire : Créer un modèle OCR, Utiliser des étiquettes pour positionner les champs, Extraire les tableaux des PDF.
  • Élimination d'autres bogues signalés par nos clients (merci à tous !).

Juillet 2022 : nous sommes en ligne 🎉

Après des mois de travail et des semaines de tests, le moteur OCR est accessible à tous ! Ceci marque la version 4 de Parseur, notre plus grande mise à jour de fonctionnalités à ce jour.

  • Activation du moteur de traitement OCR pour tous nos utilisateurs
  • Correction de quelques bugs et amélioration de l'expérience utilisateur à tous les niveaux grâce à de nombreuses petites améliorations de la convivialité
  • Publication d'un tutoriel de 13 minutes sur la façon d'extraire du texte de fichiers PDF à l'aide de notre nouveau moteur OCR :

Dernière mise à jour le

Extraction de données basée sur l'IA.
Commencez à utiliser Parseur dès aujourd’hui.

Automatisez l'extraction de texte à de vos e-mails, PDFs et tableurs.
Économisez des centaines d'heures de travail manuel.
Adoptez l'automatisation du travail avec l'IA.

Inscrivez-vous gratuitement
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot