Daten-Normalisierung und Validierung

Einheitliche Felder, geprüfte Daten aus jedem Dokument

Vom Postfach-Schema bis zur Nachverarbeitung kommt jeder Wert sauber, validiert und im richtigen Format in Ihren Folgesystemen an.

Was enthalten ist

Schema auf Postfach-Ebene

Sie definieren Ihre Felder einmal pro Postfach. Jedes Dokument wird auf dieselbe Struktur abgebildet, unabhängig von Layout oder Absender, damit Ihre Folgesysteme stets stabile Datensätze erhalten.

  • Standardfelder für Einzelwerte, Tabellenfelder für Wiederholungen
  • Felder in natürlicher Sprache an die KI beschreiben
  • Anpassbar in der Oberfläche oder per API

Formate auf Feldebene

Eingebaute Formate normalisieren Datumsangaben, Zahlen, Namen und Adressen. Das passende Format wird aus dem Dokumentkontext erkannt, die Postfach-Einstellungen dienen dabei als Fallback.

  • Datumsangaben aus jedem Format, jeder Schreibweise und jeder Sprache
  • Zahlen unabhängig von Dezimal- oder Tausendertrenner korrekt erkannt
  • Adressen in strukturierte Komponenten zerlegt und geolokalisiert

Datenvalidierung

Jeder Wert wird gegen das Postfach-Schema geprüft. Fehler erscheinen in der Oberfläche, lösen eine E-Mail-Benachrichtigung aus und triggern zusätzlich einen Webhook.

  • Schema-Prüfung sichert, dass KI-Ergebnisse zur Feldstruktur passen
  • Pflichtfeldprüfung erkennt fehlende Werte unmittelbar
  • Optionsfeldprüfung meldet Werte außerhalb der erlaubten Auswahl

Nachverarbeitungsregeln

Wenn Standardformate nicht ausreichen, steuern Sie mit kleinen Python-Skripten gezielt nach. Die Regeln laufen nach der Extraktion und passen jedes Feld exakt an Ihre Vorgaben an.

  • Werte zusammenführen, trennen oder zu neuen Feldern berechnen
  • Geschäftslogik, Nachschlagetabellen und bedingte Logik anwenden
  • Verfügbar ab dem Pro-Tarif

So funktioniert die Daten-Normalisierung

Was gerade passiert ist

Multi-Engine Dokumenten-Parsing

Vision-AI, Text-AI, Vorlagen oder OCR haben strukturierte Felder aus jedem Dokument extrahiert.

Mehr erfahren
1

Abbildung auf das Schema

Jeder extrahierte Wert wird auf die im Postfach festgelegte Feldstruktur abgebildet. Egal welches Layout das Dokument hat, das Ergebnis ist immer einheitlich strukturiert.

Postfach-Felder
Text Lieferant Acme GmbH
Text Rechnung Nr. RG-0142
Datum Ausgestellt am 2026-05-07
Zahl Gesamt 2840
Tabelle Positionen 3 Spalten, 2 Zeilen
Position Menge Preis Beratung 12 200 € Ausrüstung 2 220 €
2

Formatieren

Jedes Feld wird gemäß seinem konfigurierten Format verarbeitet. Datumsangaben und Zahlen werden regional korrekt normalisiert, Namen in Vor-, Mittel- und Nachname zerlegt, Adressen strukturiert aufgeschlüsselt.

Datum May 7, 2026 2026-05-07
Zahl 1.234,56 € 1234.56
Adresse Marienpl. 1, 80331 Muenchen
Marienplatz 1 München Bayern 80331 Deutschland
3

Validieren

Alle Ergebnisse durchlaufen Validierungsprüfungen, bevor sie weitergehen. Nur Dokumente, die diesen Check bestehen, werden exportiert, alle anderen werden markiert und zur Prüfung zurückgehalten.

Validierung
Lieferant Acme GmbH
Ausgestellt am 2026-04-15
Gesamt Pflicht fehlt
Status abgelehnt
Erlaubt: offen bezahlt geschlossen
4

Nachverarbeitung

Bei Bedarf setzen Sie Python-Regeln ein, um komplexe Geschäftslogik oder individuelle Anforderungen umzusetzen. Felder lassen sich kombinieren, Referenzdaten abfragen und Strukturen exakt an Ihre Zielsysteme anpassen.

post_process.py
def post_process(data):
if data["Gesamt"] > 1000:
data["Versand"] = "Express"
else:
data["Versand"] = "Standard"
return data
Zahl Gesamt 2840
Text Versand Express

Was als Nächstes passiert

Echtzeit-Exporte und Integrationen

Normalisierte Daten gehen in Echtzeit an Ihr CRM, Ihre Buchhaltung oder Ihre Datenbank.

Mehr erfahren
Jetzt starten

Saubere Daten, bereit für Ihre Systeme.

Definieren Sie Ihre Felder, wählen Sie passende Formate und sehen Sie, wie jede Extraktion in der gewünschten Struktur bei Ihnen ankommt.

Kostenloser Tarif inklusive, keine Kreditkarte nötig
Erstes Dokument in unter 2 Minuten verarbeitet
Jederzeit kündbar, keine Verpflichtung

Häufig gestellte Fragen

Antworten auf die häufigsten Fragen zur Daten-Normalisierung und Validierung mit Parseur, von Datums- und Zahlenformaten bis zu Validierungsregeln und Python-Nachverarbeitung.

Daten-Normalisierung ist der Schritt, der rohe, extrahierte Werte in saubere, konsistent strukturierte Daten überführt. Datumsangaben aus verschiedenen Dokumenten werden in dasselbe Format gebracht, Zahlen regional korrekt gelesen, Adressen in strukturierte Bestandteile zerlegt und jedes Feld auf ein festes Schema gebracht. So arbeiten Ihre nachgelagerten Systeme immer mit derselben Struktur.

Parseur erkennt Datumswerte in jeder Reihenfolge, mit beliebigen Trennzeichen oder Monatsnamen in vielen Sprachen. Der Dokumentkontext hilft, mehrdeutige Werte wie 03/04/2026 korrekt zu interpretieren. Die Ausgabe wird automatisch in ein einheitliches Zielformat normalisiert, damit Ihr nachgelagertes System nahtlos arbeitet.

Ja. Das Format für vollständige Namen trennt automatisch in Vor-, Mittel- und Nachnamen. Das Adressformat zerlegt und geolokalisiert Adressen nach festen Komponenten. Sobald das passende Feldformat gewählt ist, läuft diese Aufteilung automatisch.

Ja. Jedes Ergebnis wird gegen das Postfach-Schema geprüft. Pflichtfeldregeln erkennen fehlende Werte, Optionsfeldregeln melden Werte außerhalb erlaubter Auswahlen. Fehler erscheinen in der Oberfläche, werden per E-Mail gemeldet und können per Webhook an Ihre Systeme übermittelt werden, sodass Ihr Team immer informiert ist.

Ja. In der Nachverarbeitung hinterlegen Sie ein Python-Skript für individuelle Validierungen oder Transformationen. Damit lassen sich Felder neu kombinieren oder berechnen, Geschäftslogik und Nachschlagetabellen anwenden oder die Ausgabe exakt auf Ihre Anforderungen zuschneiden. Diese Funktion ist ab dem Pro-Tarif verfügbar.

Ohne Normalisierung liefern Dokumente unterschiedliche Formate, etwa Datumsangaben in verschiedenen Reihenfolgen, Zahlen mit unterschiedlichen Trennzeichen, Namen und Adressen als unstrukturierte Zeichenketten. Das führt zu fehlerhaften Importen und inkonsistenten Datensätzen. Normalisierung verhindert das und macht Integrationen deutlich zuverlässiger.

Das Zahlenfeld erkennt jeden Dezimal- und Tausendertrenner unabhängig vom regionalen Format, einschließlich europäischer Schreibweisen wie 1.234,56, US-Formaten wie 1,234.56, indischer Formate wie 1,00,00,000 und Buchhaltungsnotationen, bei denen z.B. ($123,456,789.12) als negativer Wert erkannt wird. Die Erkennung erfolgt automatisch, die Postfach-Einstellungen dienen als Fallback.

Parseur unterstützt Feldformate für Text, Datum, Zeit, Datum/Zeit, Zahl, Name, Adresse sowie Optionsfelder. Jedes Feldformat bringt eigene Parsing- und Validierungsregeln mit. Standardfelder sind für Einzelwerte gedacht, Tabellenfelder für wiederholte Daten Zeile für Zeile.

Das betroffene Dokument erhält den Status "Verarbeitung fehlgeschlagen" und wird nicht exportiert. Sie bekommen eine E-Mail-Benachrichtigung und, falls eingerichtet, einen Webhook. Sie können das Dokument manuell prüfen und korrigieren oder Fehler in Ihr Monitoring übernehmen.

Jedes Postfach hat sein eigenes Schema, auf das jede Dokumentart abgebildet wird. So lassen sich Rechnungen verschiedenster Anbieter mit unterschiedlichen Layouts verarbeiten und liefern dennoch alle eine identische Spaltenstruktur für Ihre Folgeprozesse.