OCR-Engine zum Parsen von PDF-Dokumenten

Portrait of Sylvain Josserand
von Sylvain Josserand
4 Minuten Lesezeit
Zuletzt aktualisiert am

Howdy, ich bin Sylvain und entwickle Software hier bei Parseur. Wir haben gerade unser bisher größtes Feature veröffentlicht: ein neues System zum visuellen Parsen von PDF-Dateien.

Neu: Daten aus PDF visuell extrahieren

Das Parsen von PDF-Dokumenten mithilfe von OCR ist die am häufigsten gewünschte Funktion auf unserer Seite für Feature-Upvote.

Verbesserte Zuverlässigkeit für komplexe Dokumente

Früher haben wir PDF-Dokumente in Text umgewandelt und versucht, das ursprüngliche Layout der Seiten beizubehalten. Bei einfachen Dokumenten funktionierte das hervorragend (und deshalb behalten wir die Text-Engine zusammen mit der neuen bei).

Dies machte es jedoch für unsere alte, textbasierte Engine besonders schwierig, Daten aus komplexen PDF-Dokumenten zuverlässig zu extrahieren.

Aus diesem Grund führen wir eine neue Parsing-Engine namens OCR (für Optical Character Recognition) ein. Mit dem OCR-Template-Editor können Sie Vorlagen erstellen, indem Sie Felder um den Text zeichnen, den Sie extrahieren möchten. Sie können auch Labels definieren, die als Orientierungspunkte oder Anker in Ihrem Dokument dienen und der Engine helfen, die Felder auf der Seite zu positionieren.

Genauere Informationen finden Sie auf unserer Support-Seite unter: Erstellen Sie Ihre erste OCR-Vorlage.

Endlich optionale Felder!

Diese neue Engine ermöglicht es Ihnen, optionale Felder zu definieren, und ist unempfindlicher gegenüber kleinen Änderungen im Dokumentenlayout. Sie ist auch schneller in der Erstellung von Vorlagen und einfacher anzupassen, ohne dass Sie diese von Grund auf neu erstellen müssen. Dies liegt daran, dass Sie einer Vorlage mehrere Beispiele zuordnen können. Auf diese Weise können Sie Felder definieren, die in einigen Dokumenten vorkommen, in anderen jedoch nicht.

Vollständige Rückwärtskompatibilität

Alle aktuellen Funktionen, wie Tabellen, Metadaten, Nachbearbeitung und statische Felder, funktionieren auch mit der neuen Engine. Das Ausgabedatenformat ist dasselbe, Webhooks bleiben unverändert.

Diese neue Engine arbeitet mit der aktuellen Engine zusammen, und Sie können sogar die Vorlagen beider Engines in derselben Mailbox kombinieren, um das Beste aus beiden Welten zu erhalten.

Wenn Sie sowohl textbasierte als auch OCR-Vorlagen in Ihrer Mailbox haben, hat die Vorlage mit den meisten Feldern Vorrang vor den anderen.

Seitenweise Abrechnung

Jeder erfolgreich geparsten Seite wird nun ein Credit berechnet. Wenn ein Dokument nicht aus mehreren Seiten besteht (wie z. B. eine lange E-Mail oder eine Tabellenkalkulation), wird wie üblich nur ein Credit berechnet, wenn dieses Dokument erfolgreich verarbeitet wurde, unabhängig von der Länge des Dokuments.

Wie geht es weiter?

Nachdem die Beta-Phase abgeschlossen ist und die neue OCR-Engine für alle verfügbar ist, planen wir, sie für alle HTML-Dokumente wie E-Mails und Webseiten verfügbar zu machen.

Live-Updates zu unseren Fortschritten bis zur öffentlichen Freigabe

April 2022

  • Benutzerdefinierter Seitenkopf- und -fußzeilenrand für Tabellenfelder hinzugefügt.
  • Option hinzugefügt, um ein PDF alle X Seiten in mehrere Dokumente aufzuteilen.
  • Zeilenverbindungsoptionen zu Tabellenfeldern hinzugefügt.
  • Verbesserte Fehlermeldungen auf Feldebene im Vorlageneditor und Debugger.
  • Verbesserte Genauigkeit der Parsing-Engine.
  • Verbesserte Benutzerfreundlichkeit des Vorlageneditors.
  • Behobene Fehler, die uns von unseren furchtlosen Beta-Testern gemeldet wurden.

Mai 2022

  • Weitere Benutzer in das Beta-Testprogramm aufgenommen.
  • Verwaltung von Vorlagenbeispielen hinzugefügt (Beschreibung hinzufügen, Beispiele entfernen).
  • Verbesserter Vorlageneditor zur Hervorhebung optionaler Felder, von Labels, die sich auf Felder beziehen, beim Bewegen der Maus und umgekehrt.
  • Verbesserte Genauigkeit der Textextraktion durch Verwendung der kodierten Textebene im PDF anstelle von OCR, falls vorhanden.
  • Öffnung des Beta-Programms für jedermann über Selbsteinwahl auf der Kontoseite.
  • Von unseren Kunden gemeldete Fehler behoben.

Juni 2022

  • Wir stehen kurz vor der öffentlichen Freigabe. Mehrere Kunden nutzen die neue Engine bereits täglich, um ihre PDFs zu parsen!
  • Weitere Benutzer in das Beta-Testprogramm aufgenommen.
  • Verbesserte Zeilenerkennung und Extraktion von mehrzeiligen Feldern.
  • Verbesserte Erkennung und Extraktion von Tabellenzeilen und -zellen.
  • Zusätzliche Supportdokumentation erstellt: OCR-Vorlage erstellen, Labels zum Positionieren von Feldern verwenden, PDF-Tabellen extrahieren.
  • Weitere von unseren Kunden gemeldete Fehler behoben (vielen Dank an alle!).

Juli 2022: Wir sind live 🎉

Nach monatelanger Arbeit und wochenlangen Tests ist die OCR-Engine jetzt für alle verfügbar! Dies ist die Version 4 von Parseur, unser bisher größtes Feature-Update.

  • Aktivierte OCR-Parsing-Engine für alle unsere Benutzer
  • Einige Fehler behoben und die Benutzerfreundlichkeit auf breiter Front durch viele kleine Verbesserungen der Benutzerfreundlichkeit verbessert
  • Veröffentlichung eines 13-minütigen Tutorials zum Extrahieren von Text aus PDFs mit unserer neuen OCR-Engine:

Zuletzt aktualisiert am

KI-basierte Datenextraktionssoftware.
Nutzen Sie Parseur noch heute.

Automatisieren Sie die Textextraktion aus E-Mails, PDFs und Tabellen.
Sparen Sie Hunderte von Stunden manueller Arbeit.
Nutzen Sie die Arbeitsautomatisierung mit KI.

Kostenlos anmelden
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot