OCR-engine voor het parseren van PDF-documenten

Portrait of Sylvain Josserand
door Sylvain Josserand
4 min lezen
Laatst bijgewerkt op

Hoi, ik ben Sylvain en ik bouw software hier bij Parseur. We hebben zojuist onze grootste functie tot nu toe uitgebracht: een nieuw systeem om PDF-bestanden visueel te parseren.

Nieuw: Visueel gegevens extraheren uit PDF

PDF-documenten parseren met OCR is de meest gevraagde functie op onze feature upvote pagina.

Betrouwbaarder bij complexe documenten

Voorheen converteerden we PDF-documenten naar tekst, waarbij we probeerden de oorspronkelijke opmaak van de pagina’s te behouden. Dat werkte prima voor eenvoudige documenten (en daarom blijft de tekstengine beschikbaar naast de nieuwe engine).

Maar voor complexe PDF-bestanden was het voor onze oude, op tekst gebaseerde engine lastig om consequent gegevens te extraheren.

Daarom introduceren we een nieuwe parseringsengine op basis van OCR (Optical Character Recognition). Met de OCR-template editor kun je eenvoudig templates maken door kaders te tekenen om de tekst die jij wilt extraheren. Ook kun je labels toevoegen die dienen als herkenningspunten in je document, zodat de engine velden nauwkeuriger positioneert op de pagina.

Meer informatie vind je op onze supportpagina: Maak je eerste OCR-template.

Eindelijk: Optionele velden!

Met deze nieuwe engine kun je optionele velden instellen en is hij beter bestand tegen kleine wijzigingen in de opmaak van het document. Templates zijn sneller te bouwen en eenvoudiger aan te passen zonder dat je helemaal opnieuw hoeft te beginnen. Je kunt namelijk meerdere voorbeelden aan één template koppelen, zodat je velden kunt ondersteunen die alleen soms in een document voorkomen.

Volledig achterwaarts compatibel

Alle bestaande functies, zoals tabellen, metadata, nabewerkingen en statische velden, blijven werken met deze nieuwe engine. Het data-uitvoerformaat blijft ongewijzigd en ook webhooks functioneren zoals voorheen.

De nieuwe engine werkt samen met de oude engine, en je kunt zelfs templates van beide engines combineren binnen dezelfde mailbox voor een optimale workflow.

Als je zowel tekstgebaseerde als OCR-templates in je mailbox hebt, krijgt de template met de meeste velden automatisch voorrang.

Prijs per pagina

Vanaf nu wordt per succesvol geparste pagina één credit gerekend. Als een document uit één lange pagina bestaat (zoals een lange e-mail of spreadsheet), wordt er – zoals altijd – slechts één credit afgeschreven wanneer het document succesvol is verwerkt, ongeacht de lengte.

Wat kun je binnenkort verwachten?

Na de bètaperiode en zodra de nieuwe OCR-engine beschikbaar is voor iedereen, willen we deze engine ook geschikt maken voor alle HTML-documenten zoals e-mails en webpagina’s.

Live updates over onze voortgang richting de publieke release

April 2022

  • Marge-instellingen voor kop- en voetteksten bij tabelvelden toegevoegd.
  • Mogelijkheid toegevoegd om een PDF in meerdere documenten te splitsen na elke X pagina’s.
  • Opties toegevoegd voor het samenvoegen van rijen in tabelvelden.
  • Verbeterde foutmeldingen op veldniveau in de template-editor en debugger.
  • Parseringsengine is nauwkeuriger geworden.
  • Gebruiksvriendelijkheid van de template editor verbeterd.
  • Diverse bugs opgelost die door onze enthousiaste bèta-testers zijn gemeld.

Mei 2022

  • Meer gebruikers uitgenodigd voor het bèta-testprogramma.
  • Beheer van samples in templates toegevoegd (beschrijving toevoegen, samples verwijderen).
  • Template editor verbeterd: optionele velden en aan labels gerelateerde velden worden nu gemarkeerd bij hover.
  • Nauwkeurigheid van tekstextractie verhoogd door gebruik te maken van de gecodeerde tekstlaag in PDF’s, indien deze aanwezig is, in plaats van OCR.
  • Bèta-programma opengesteld voor iedereen via zelf-aanmelding op de accountpagina.
  • Verschillende door klanten gemelde bugs opgelost.

Juni 2022

  • We staan op het punt van publieke release. Verschillende klanten parseren nu dagelijks PDF's met de nieuwe engine!
  • Meer gebruikers aan de bèta toegevoegd.
  • Lijnherkenning en extractie van meerregelige velden verbeterd.
  • Detectie en extractie van tabelrijen en cellen verder geoptimaliseerd.
  • Extra supportdocumentatie beschikbaar: Maak OCR-template, Gebruik labels voor veldpositionering, Tabellen uit PDF extraheren.
  • Nog meer bugs opgelost dankzij jullie feedback (bedankt allemaal!).

Juli 2022: we zijn live 🎉

Na maanden ontwikkeling en intensief testen is de OCR-engine nu voor iedereen beschikbaar! Dit markeert versie 4 van Parseur, onze grootste feature-update ooit.

  • OCR-parseringsengine beschikbaar gemaakt voor alle gebruikers
  • Bugs gefixt en de gebruikerservaring overal verbeterd met talloze kleine optimalisaties
  • Een 13 minuten durende tutorial gepubliceerd over het extraheren van tekst uit PDF’s met onze nieuwe OCR-engine:

Laatst bijgewerkt op

AI-gebaseerde data-extractiesoftware.
Begin vandaag nog met Parseur.

Automatiseer het extraheren van tekst uit e-mails, PDF’s en spreadsheets.
Bespaar honderden uren handmatig werk.
Omarm werkautomatisering met AI.

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot