Zonale OCR: Extrahieren Sie einfach strukturierte Daten aus Dokumenten
Zonale OCR geht über die traditionelle optische Zeichenerkennung hinaus. Sie ermöglicht die Extraktion von Text an bestimmten Stellen ("Zonen") auf Dokumentseiten. Zonale OCR ist der einfachste Weg, um Rohinhalte aus Dokumenten, die durch OCR erzeugt wurden, in strukturierte Daten umzuwandeln.
Wie funktioniert Zonale OCR?
Die Verwendung von Zonal OCR in Parseur ist sehr einfach und intuitiv. Das Erstellen von Feldern zum Extrahieren von Text ist so einfach wie 1, 2, 3, wiederholen.
-
1
Zeichnen Sie eine Zone auf der Seite
- Suchen Sie einen Textteil, den Sie extrahieren möchten, und zeichnen Sie mit der Maus ein Feld darüber.
-
2
Benennen Sie Ihr Feld
- Klicken Sie auf die Schaltfläche "Feld erstellen" und geben Sie Ihrem neuen Feld einen aussagekräftigen Namen.
-
3
Feldeinstellungen festlegen
- Passen Sie optional Ihre Feldeinstellungen an, z. B. das Format (Datum, Uhrzeit, Ort, Kontaktname) oder die Erforderlichkeit.
-
Wiederholen
- Wiederholen Sie den Vorgang für jedes Feld, das Sie extrahieren möchten. Parseur extrahiert dann die Daten an den Zonen, die Sie für jedes Dokument gezeichnet haben, das Sie mit einem ähnlichen Layout hochladen.
Unterschiede zwischen OCR und Zonal OCR
Zonale OCR ist ein Fortschritt gegenüber der traditionellen OCR. Anstatt den gesamten Text aus einem Dokument zu extrahieren, extrahiert Zonale OCR strukturierte Daten, die in Ihren Geschäftsabläufen verwendet werden können.
Traditionelle OCR
Dokument in Klartext umwandeln
OCR identifiziert alle Zeichen aus einem Dokument und wandelt sie in Klartext um.
Traditionelle OCR eignet sich am besten für die Indizierung von Dokumenteninhalten und die Ermöglichung der Suche in diesen Dokumenten. Sie ermöglicht jedoch nicht die einfache Wiederverwendung der Daten in anderen Anwendungen, da die Daten unstrukturiert bleiben (es handelt sich lediglich um Klartext).
Zonale OCR
Dokument in strukturierte Daten umwandeln
Zonale OCR extrahiert Text an bestimmten Zonen, die Sie auf der Seite definieren, und wandelt ihn in wohlgeformte Daten wie JSON um.
Zonale OCR eignet sich am besten, um Dokumente (von Natur aus unstrukturiert) in strukturierte Daten umzuwandeln. Da das Zeichnen von Zonen auf Dokumenten ein visueller Prozess ist, ist die Arbeit mit Zonal OCR einfach.
Wann sollten Sie Zonale OCR verwenden? Vor- und Nachteile.
Zonale OCR ist der einfachste Weg, um strukturierte Daten aus Dokumenten zu extrahieren. Sie sollten jedoch die Grenzen für den Einsatz in der Praxis beachten.
Vorteile von Zonal OCR
-
✅
Volle Kontrolle
- Mit Zonal OCR können Sie genau die Daten extrahieren, die Sie benötigen, die Felder so benennen, dass sie für Ihren Workflow sinnvoll sind, und ihren Inhalt normalisieren (Daten, Zahlen, Adressen...).
-
✅
Einfache Einrichtung
- Das Erstellen von Feldern mit Zonal OCR könnte nicht einfacher sein: Zeichnen Sie einfach ein Feld über jedes Feld, das Sie benötigen. Sie müssen sich nicht mit brüchigen Parsing-Regeln oder regulären Ausdrücken herumschlagen.
-
✅
Einfach zu debuggen und anzupassen
- Mit Zonal OCR extrahierte Felder sind leicht nachvollziehbar. Wenn etwas schief geht, legen Sie einfach die Position des Feldes visuell über Ihr aktuelles Dokument, um zu überprüfen, ob die Position korrekt ist, oder passen Sie sie gegebenenfalls an.
Grenzen von Zonal OCR
-
❌
Kann nicht mit Feldern umgehen, die sich "bewegen"
- Zonale OCR extrahiert Text von Natur aus an einer festen Position auf einer Dokumentseite. Wenn sich die Position eines Feldes von einem Dokument zum nächsten verschiebt, kann es vorkommen, dass Sie partielle oder nicht zusammenhängende Daten erfassen.
-
❌
Kann nicht mit Feldern unterschiedlicher Größe umgehen
- Aus dem gleichen Grund wie oben haben Felder, die mit Zonal OCR erfasst werden, eine feste Breite und Höhe. Die Erfassung von Daten mit variabler Größe wie Adressen oder Tabellen mit Zonal OCR ist eine Herausforderung.
-
❌
Kann in der Regel nicht mit schlecht gescannten Dokumenten umgehen
- Seiten von schlecht gescannten Dokumenten können in Maßstab und Ausrichtung variieren. Das kann Zonale OCR für solche Arten von Dokumenten unzuverlässig machen, da die Position der einzelnen zu extrahierenden Felder von Scan zu Scan leicht variiert.
Intelligente Datenextraktion mit Dynamic OCR
Die leistungsstarken OCR-Funktionen von Parseur überwinden die Grenzen der Zonal OCR durch den Einsatz von Dynamic OCR, aber auch durch Multi-Templates und automatische Layouterkennung.
Dynamisches OCR
Mit Dynamisches OCR können Sie ganz einfach Text aus Feldern extrahieren, die sich von Dokument zu Dokument horizontal, vertikal oder in ihrer Größe verändern.
Leistungsstarke Template-Engine
Extrahieren Sie Daten aus verschiedenen Layouts, indem Sie mehrere Vorlagen erstellen und die automatische Layouterkennung verwenden.
Best-in-Class OCR-Software
Die OCR-Genauigkeit von Parseur ist die beste auf dem Markt. Sie unterstützt die meisten Sprachen, einschließlich handgeschriebener Texte, und ist blitzschnell.