Daten-Normalisierung und Validierung

Einheitliche Felder, geprüfte Daten aus jedem Dokument

Vom Postfach-Schema bis zur Nachverarbeitung kommt jeder extrahierte Wert sauber, validiert und im richtigen Format in Ihren Folgesystemen an.

Kostenlos registrieren

Was enthalten ist

Schema auf Postfach-Ebene

Ein konsistentes Schema ist das, was nachgelagerte Integrationen und Automatisierungen wirklich zuverlässig macht. Sie definieren Ihre Felder einmal und jedes Dokument, das das Postfach verarbeitet, wird auf dieselbe Struktur abgebildet.

Standardfelder für Einzelwerte, Tabellenfelder für wiederkehrende Daten
Anweisungen in natürlicher Sprache sagen der KI, was für jedes Feld erfasst werden soll
Felder jederzeit über die Benutzeroberfläche oder programmgesteuert über die API anpassen

Formate auf Feldebene

Eingebaute Formate normalisieren Datumsangaben, Zahlen, Adressen und mehr. Das passende Format wird aus dem Dokumentkontext abgeleitet, wobei Postfach-Einstellungen als Fallback dienen.

Datumsangaben aus jeder Reihenfolge, jedem Trennzeichen und jedem Monatsnamen sprachübergreifend auslesen
Zahlen unabhängig von Dezimal- oder Tausendertrennern in allen regionalen Formaten korrekt erkennen
Adressfelder geolokalisieren Adressen und zerlegen sie in strukturierte Bestandteile

Datenvalidierung

Die automatische Datenvalidierung prüft jedes extrahierte Ergebnis gegen das Postfach-Schema. Fehler erscheinen in der Benutzeroberfläche, lösen eine E-Mail-Benachrichtigung aus und triggern einen Webhook, sodass sowohl Ops-Teams als auch Tools davon erfahren.

Schema-Prüfung sichert, dass das KI-Ergebnis zur Feldstruktur passt
Pflichtfeldprüfung erkennt fehlende Werte direkt an der Quelle
Optionsfeldprüfung meldet Werte außerhalb der erlaubten Auswahlliste

Nachverarbeitungsregeln

Wenn Standardformate und -validierungen nicht ausreichen, fügen Sie ein kleines Python-Skript ein. Die Regeln laufen nach der Extraktion, um Werte umzugestalten oder eine benutzerdefinierte Validierung anhand Ihrer Geschäftslogik durchzuführen.

Extrahierte Werte kombinieren, trennen oder zu neuen Feldern berechnen
Geschäftslogik, Nachschlagetabellen oder bedingte Transformationen anwenden
Verfügbar ab dem Pro-Tarif

So funktioniert die Daten-Normalisierung

Was gerade passiert ist

KI-Dokumentenextraktion und Parsing

Vision-KI, Text-KI, Vorlagen oder OCR haben strukturierte Felder aus jedem Dokument extrahiert.

Mehr erfahren

Auf Schema abbilden

Extrahierte Werte werden auf die feste Gruppe von Feldern abgebildet, die für das Postfach definiert sind. Jedes Dokument, unabhängig vom Quell-Layout, hat am Ende dieselbe Spaltenstruktur bei der Ausgabe.

Postfach-Felder

Text Lieferant Acme GmbH

Text Rechnung Nr. RG-0142

Datum Ausgestellt am 2026-05-07

Zahl Gesamt 2840

Tabelle Positionen 3 Spalten, 2 Zeilen

Position Menge Preis Beratung 12 200 € Ausrüstung 2 220 €

Formatieren

Jedes Feld durchläuft sein konfiguriertes Format. Datumsangaben und Zahlen werden unter Nutzung des Dokumentkontexts über regionale Variationen hinweg normalisiert, Namen in Vor-/Mittel-/Nachname aufgeteilt, Adressen in strukturierte Teile zerlegt.

Datum May 7, 2026 2026-05-07

Zahl 1.234,56 € 1234.56

Adresse Marienpl. 1, 80331 Muenchen

Marienplatz 1 München Bayern 80331 Deutschland

Validieren

Jedes Ergebnis durchläuft vor dem Weitergehen die Validierungsprüfungen. Dokumente, die bestehen, gehen zur Nachverarbeitung weiter; der Rest wird markiert, sodass nichts Parseur unbemerkt verlässt.

Validierung

Lieferant Acme GmbH

Ausgestellt am 2026-04-15

Gesamt Pflicht fehlt

Status abgelehnt

Erlaubt: offen bezahlt geschlossen

Nachverarbeitung

Optionale Python-Regeln laufen zuletzt und wenden Geschäftslogik an, die Formate auf Feldebene nicht ausdrücken können. Felder kombinieren, Referenzdaten nachschlagen oder die Ausgabe exakt an den Vertrag des Folgesystems anpassen.

post_process.py

def post_process(data):

if data["Gesamt"] > 1000:

data["Versand"] = "Express"

else:

data["Versand"] = "Standard"

return data

Zahl Gesamt 2840

Text Versand Express

Was als Nächstes passiert

Echtzeit-Exporte und Integrationen

Normalisierte Daten werden in Echtzeit an Ihr CRM, Ihr Buchhaltungssystem oder Ihre Datenbank übergeben.

Mehr erfahren

Zurück zu allen Funktionen

Saubere Daten, bereit für Ihre Systeme.

Definieren Sie die benötigten Felder, wählen Sie passende Formate und sehen Sie, wie jede Extraktion in der richtigen Struktur bei Ihnen ankommt.

Kostenloser Tarif inklusive, keine Kreditkarte nötig

Erstes Dokument in unter 2 Minuten verarbeitet

Jederzeit kündbar, keine Verpflichtung

Häufig gestellte Fragen

Antworten auf die häufigsten Fragen zur Daten-Normalisierung und Validierung mit Parseur, von Datums- und Zahlenformaten bis zu Validierungsregeln und Python-Nachverarbeitung.

Daten-Normalisierung ist der Schritt, der rohe extrahierte Werte in saubere, konsistent strukturierte Daten verwandelt. Datumsangaben aus verschiedenen Dokumenten landen im selben Format, Zahlen werden über regionale Konventionen hinweg korrekt gelesen, Adressen in strukturierte Teile zerlegt und jedes Feld auf ein festes Schema abgebildet, sodass Folgesysteme immer dieselbe Struktur erhalten.

Ohne Normalisierung liefert jedes Dokument eine leicht unterschiedliche Ausgabe: Datumsangaben in verschiedenen Reihenfolgen, Zahlen mit unterschiedlichen Trennzeichen, Namen und Adressen als unstrukturierte Zeichenketten. Das führt dazu, dass Folgetools Zeilen ablehnen oder inkonsistente Daten speichern. Die Normalisierung behebt dies an der Quelle, sodass Integrationen wirklich zuverlässig bleiben.

Das Zahlenfeld erkennt alle Dezimal- und Tausendertrennzeichen in regionalen Formaten, einschließlich europäischer Schreibweisen wie 1.234,56 und US-Konventionen wie 1,234.56, indischer Lakh- und Crore-Gruppierungen wie 1,00,00,000 sowie Buchhaltungsnotationen, bei denen Klammern negative Werte anzeigen (z. B. ($123,456,789.12)). Das richtige Format wird aus dem Dokumentkontext abgeleitet, wobei Postfach-Einstellungen als Fallback dienen.

Parseur unterstützt Feldformate für Text, Datum, Zeit, Datum/Zeit, Zahl, vollständiger Name, Adresse und Optionsfelder. Jedes Format bringt eigene Parsing- und Validierungsregeln mit. Standardfelder erfassen Einzelwerte, während Tabellenfelder wiederkehrende Daten Zeile für Zeile erfassen.

Der Status des Dokuments wird auf 'Verarbeitung fehlgeschlagen' gesetzt, anstatt lautlos exportiert zu werden, und es wird eine E-Mail-Benachrichtigung verschickt. Wenn ein Webhook für fehlgeschlagene Prozesse konfiguriert ist, wird dieser ebenfalls ausgelöst. Sie können das Dokument manuell überprüfen und korrigieren oder Fehler in Ihr eigenes Monitoring einbinden.

Jedes Postfach hat sein eigenes Schema und jedes Dokument, das das Postfach verarbeitet, wird auf dieselbe feste Gruppe von Feldern abgebildet. Ein einziges Postfach kann also Rechnungen vieler verschiedener Lieferanten mit vielen unterschiedlichen Layouts aufnehmen und dennoch für jede Zeile dieselbe Spaltenstruktur ausgeben.

Definieren Sie die von Ihrem Folgesystem erwarteten Felder einmal in einem Parseur-Postfach-Schema, und jedes Dokument wird auf diese Struktur abgebildet. Feldformate standardisieren Datumsangaben, Zahlen, Namen und Adressen über regionale Variationen hinweg, die automatische Datenvalidierung fängt fehlende oder ungültige Werte vor dem Export ab, und die optionale Python-Nachverarbeitung übernimmt alle Geschäftslogiken, die Standardformate nicht ausdrücken können. Die Daten kommen bereits konsistent in Ihren Systemen an, ohne dass dazwischen Bereinigungsskripte erforderlich sind.

Das Datumsfeld von Parseur liest jede Reihenfolge, jedes Trennzeichen oder jeden Monatsnamen sprachübergreifend aus und nutzt den Dokumentkontext, um mehrdeutige Werte wie 03/04/2026 korrekt zu interpretieren. Die Ausgabe wird in ein einheitliches Format normalisiert, sodass Ihr Folgesystem immer dieselbe Struktur erhält.

Ja. Das Format für vollständige Namen trennt Namen in Vor-, Mittel- und Nachnamen. Das Adressformat geolokalisiert Adressen und zerlegt sie in strukturierte Bestandteile. Beides geschieht automatisch, sobald das Feldformat festgelegt ist.

Ja. Jedes Ergebnis wird gegen das Postfach-Schema geprüft. Pflichtfeldregeln erkennen fehlende Werte und Optionsfeldregeln melden Werte außerhalb der erlaubten Liste. Fehler erscheinen in der Benutzeroberfläche, senden eine E-Mail-Benachrichtigung und feuern einen Webhook, sodass sowohl Ops-Teams als auch Ihre Tools informiert werden.

Ja. Über Nachverarbeitungsregeln können Sie ein kleines Python-Skript einfügen, das nach der Extraktion und der Standardvalidierung ausgeführt wird. Nutzen Sie es, um extrahierte Werte zu kombinieren, zu trennen oder neue Felder zu berechnen, Geschäftslogik anzuwenden, Nachschlagetabellen auszuführen oder die Ausgabe exakt an den Vertrag eines Folgesystems anzupassen. Verfügbar ab dem Pro-Tarif.