Multi-Engine Dokumenten-Parsing
Die richtige Parsing-Engine für jedes Dokument
Vision KI für visuelle Layouts, Text KI für reinen Text, Vorlagen für feste Formulare. Alle drei Engines laufen im selben Postfach.
Was enthalten ist
Vision KI-Extraktion
Vision-Modelle lesen Seiten als Bild statt als Text. Die KI erfasst das Dokument wie ein menschlicher Leser, inklusive Layout und visuellem Kontext.
- Ideal für umfangreiche PDFs, Scans und komplexe Formulare
- Erkennt Handschrift, Kontrollkästchen, Stempel und Layout-Hinweise
- Einrichtung per englischer Anweisung, ohne Vorlage
Text KI-Extraktion
Dokumente werden zunächst in reinen Text umgewandelt, falls nötig per OCR. Die KI arbeitet rein mit dem Fließtext und ignoriert dabei Layout und Bilder.
- Ideal für E-Mails, einfache PDFs und textlastige Dokumente
- Sinnvoll, wenn das Layout keine Rolle spielt
- Einrichtung per englischer Anweisung, ohne Vorlage
Vorlagenbasierte Extraktion
Sie hinterlegen pro Postfach beliebig viele Vorlagen. Parseur wählt automatisch die passende Vorlage und liefert konsistente Ergebnisse, ganz ohne KI.
- Perfekt für standardisierte Formulare und Systemmails
- Maximale Präzision bei festem Layout
- Visueller Vorlagen-Editor, eine Vorlage je Layout
Tabellen- und Einzelpostenextraktion
Jede Tabellenzeile wird als eigener Datensatz extrahiert, nicht als gemeinsames Feld. Funktioniert mit allen drei Engines, native Tabellen werden automatisch erkannt.
- Verarbeitet variable Zeilenzahlen pro Dokument
- Unterstützt mehrseitige Tabellen
- KI-Engines lösen auch mehrzeilige Posten in einzelne Felder auf
OCR für gescannte Dokumente und Bilder
Optische Zeichenerkennung liest Text aus Scans, Fotos und PDFs ohne Textebene. Sie ergänzt Text-KI und Vorlagen-Engine, wenn keine Textebene vorliegt.
- Unterstützt Scans, Handyfotos und PDFs ohne Textebene
- Mehrsprachige OCR in über 200 Sprachen, inklusive Handschrift
- Zonale und dynamisches OCR für feste und flexible Layouts
Dokumentenvorverarbeitung
Für maximale Genauigkeit werden eingehende Dokumente zuerst bereinigt und repariert. Parseur greift dabei auf Erfahrung aus über 100 Millionen verarbeiteten Dokumenten zurück.
- Richtet schiefe Scans aus und wiederholt OCR bei Bedarf
- Repariert defekte PDFs, fehlerhafte E-Mail-Kodierung und HTML
- Erkennt länderspezifische Datums- und Zahlenformate automatisch
So funktioniert Dokumenten-Parsing
Was gerade passiert ist
Dokumenteneingang
Dokumente wurden hochgeladen oder automatisch via E-Mail, API oder verbundenem Speicher empfangen.
Vorverarbeitung
Alle Dokumente werden zunächst automatisch bereinigt. Parseur korrigiert Seitenausrichtung, gleicht schiefe Scans aus und repariert fehlerhafte oder chaotisch aufgebaute Inhalte.
OCR
Bei Scans, Handyfotos und PDFs ohne Textebene wird OCR durchgeführt, um den Text zu extrahieren. Gibt es eine native Textebene, wird dieser Schritt übersprungen.
Engine auswählen
Parseur ermittelt automatisch die optimale Parsing-Engine für jedes Dokument. Gibt es eine passende Vorlage, hat die Vorlage Priorität. Wenn nicht, verarbeitet Vision KI bildlastige Seiten, während Text KI für reine Textinhalte zuständig ist.
Extrahieren
Die ausgewählte Parsing-Engine extrahiert strukturierte Felder entsprechend dem festgelegten Postfach-Schema. Anschließend werden alle Felder zur Formatierung und Validierung weitergeleitet.
Was als Nächstes passiert
Daten-Normalisierung und Validierung
Extrahierte Felder werden validiert, formatiert und für nachgelagerte Workflows aufbereitet.