Gegevensnormalisatie en validatie

Eén format, schone data uit elk document

Vaste velden per mailbox, datums en bedragen in één formaat, en validatie voordat er ook maar iets jouw systemen in gaat.

Wat je krijgt

Schema per mailbox

Definieer je velden één keer per mailbox. Elk document dat binnenkomt wordt naar exact dezelfde structuur gemapt, zodat downstream-integraties gewoon werken.

  • Standaardvelden voor losse waarden, tabelvelden voor herhalende data
  • Vertel de AI in normaal Nederlands wat per veld nodig is
  • Pas velden op elk moment aan via de UI of de API

Formaten per veld

Ingebouwde formaten normaliseren datums, getallen, namen en adressen. Parseur leidt het juiste format af uit de context van het document, met de mailbox-standaard als fallback.

  • Leest datums in elke volgorde, scheiding of taal
  • Begrijpt elk decimaal- of duizendtalteken in getallen
  • Splitst adressen automatisch in gestructureerde onderdelen

Validatie op elke waarde

Elke geëxtraheerde waarde wordt getoetst aan het schema. Fouten verschijnen direct in de UI, sturen een e-mail, en triggeren een webhook richting jouw tooling.

  • Schema-check toetst of het AI-resultaat past bij het veldformaat
  • Verplichte-veldcheck signaleert missende waarden direct
  • Keuzevelden markeren waarden buiten de toegestane lijst

Nabewerkingsregels

Heb je meer nodig dan standaard formats en validatie? Voeg een kort Python-script toe dat na extractie draait om velden te herstructureren of je eigen logica toe te passen.

  • Combineer, splits of bereken nieuwe velden uit de extractie
  • Pas bedrijfslogica toe, raadpleeg lookups, of voer transformaties uit
  • Beschikbaar vanaf het Pro-abonnement

Hoe gegevensnormalisatie werkt

Wat er net gebeurde

Multi-engine Document Parsing

Vision AI, Text AI, templates of OCR hebben gestructureerde velden uit elk document gehaald.

Meer informatie
1

Mappen naar schema

Geëxtraheerde waarden landen in de vaste set velden die je voor de mailbox hebt gedefinieerd. Elk document, ongeacht de lay-out, komt er met dezelfde kolomstructuur uit.

Mailboxvelden
Tekst Leverancier Acme BV
Tekst Factuurnr. INV-0142
Datum Uitgegeven op 2026-05-07
Getal Totaal 2840
Tabel Regels 3 kolommen, 2 rijen
Artikel Aantal Prijs Advies 12 € 200,00 Apparatuur 2 € 220,00
2

Formatteren

Elk veld loopt door het ingestelde format. Datums en getallen worden genormaliseerd over regionale verschillen heen, op basis van de context van het document. Namen worden gesplitst in voornaam, tussenvoegsel en achternaam. Adressen worden uitgesplitst in gestructureerde onderdelen.

Datum May 7, 2026 2026-05-07
Getal € 1.234,56 1234.56
Adres Herengracht 100, 1015BS Amsterdam
Herengracht 100 Amsterdam NH 1015 BS Nederland
3

Valideren

Elke waarde gaat door een validatiecheck voordat het document doorstroomt. Alles goed? Door naar nabewerking. Fouten? Die worden gemarkeerd, zodat er nooit iets Parseur verlaat zonder controle.

Validatie
Leverancier Acme BV
Uitgegeven op 2026-04-15
Totaal Verplicht ontbreekt
Status afgewezen
Toegestaan: open betaald gesloten
4

Nabewerken

Optionele Python-regels draaien als laatste stap, zodat je bedrijfslogica kunt toevoegen die met veldformaten alleen niet lukt. Combineer velden, raadpleeg referentiedata, of pas de output aan op het exacte contract van jouw downstream-systeem.

post_process.py
def post_process(data):
if data["Totaal"] > 1000:
data["Verzending"] = "express"
else:
data["Verzending"] = "standaard"
return data
Getal Totaal 2840
Tekst Verzending express

Wat er daarna gebeurt

Realtime export en integraties

Genormaliseerde data wordt direct geleverd aan je CRM, boekhoudsysteem of database.

Meer informatie
Begin direct

Schone data, klaar voor jouw systemen.

Definieer de velden die je nodig hebt, kies het format dat past, en zie hoe elke extractie er in het juiste formaat uitkomt.

Gratis abonnement, geen creditcard nodig
Verwerk je eerste document in minder dan 2 minuten
Op elk moment opzegbaar, geen verplichtingen

Veelgestelde vragen

Veelvoorkomende vragen over normalisatie en validatie bij Parseur, van datum- en getalformaten tot validatieregels en Python-nabewerking.

Gegevensnormalisatie is de stap die ruwe geëxtraheerde waarden omzet naar schone, consistent gestructureerde data. Datums uit verschillende documenten komen in hetzelfde format, getallen worden correct uitgelezen, adressen netjes uitgesplitst, en elk veld past in een vast schema. Zo ontvangen downstream-systemen altijd dezelfde structuur.

Het datumveld van Parseur leest elke volgorde, scheiding of maandnaam in verschillende talen. Een ambigue datum als 03/04/2026 wordt op basis van context juist geïnterpreteerd. Alles wordt genormaliseerd naar één vast format, zodat je downstream-systeem altijd dezelfde structuur krijgt.

Ja. Het format ‘Volledige naam’ splitst namen in voornaam, tussenvoegsel en achternaam. Het format ‘Adres’ lokaliseert en splitst adressen automatisch in gestructureerde elementen. Dat werkt direct zodra je het veldformat instelt.

Jazeker. Elk resultaat wordt getoetst aan het mailbox-schema. Verplichte velden signaleren missende waarden, keuzevelden markeren foutieve waarden. Fouten verschijnen direct in de UI, per e-mail, en via een webhook, zodat zowel jij als je tools er direct van op de hoogte zijn.

Ja. Met nabewerkingsregels voeg je een kort Python-script toe dat na extractie en standaardvalidatie wordt uitgevoerd. Gebruik dit om velden te combineren, splitsen, nieuwe waarden te berekenen, bedrijfslogica toe te passen, of je output volledig aan te passen. Beschikbaar vanaf het Pro-abonnement.

Zonder normalisatie geeft elk document een net iets ander resultaat: datums in andere volgorde, getallen met andere scheidingstekens, namen en adressen door elkaar. Downstream-tools weigeren records of slaan inconsistente data op. Normalisatie voorkomt dat, zodat integraties blijvend betrouwbaar functioneren.

Het getalveld interpreteert elk decimaal- en duizendtalteken: van de Europese 1.234,56 tot de Amerikaanse 1,234.56 en Indiase grouping zoals 1,00,00,000. Ook boekhoudnotatie (haakjes rond negatieve bedragen) wordt ondersteund. Het juiste format wordt automatisch bepaald op basis van de context van het document, met mailbox-standaard als fallback.

Parseur ondersteunt Tekst, Datum, Tijd, Datum-tijd, Getal, Volledige naam, Adres en Keuzeveld. Elk format heeft eigen parsing- en validatieregels. Standaardvelden vangen losse waarden, tabelvelden verwerken herhalende gegevens rij voor rij.

Het document krijgt dan de status ‘Process Failed’, zodat het nooit automatisch geëxporteerd wordt. Je ontvangt een e-mail, en als je een process-failed webhook hebt ingesteld wordt die geactiveerd. Vervolgens kun je het document zelf beoordelen of fouten meenemen in je eigen monitoring.

Elke mailbox heeft zijn eigen schema, en elk document dat die mailbox verwerkt wordt naar dezelfde vaste set velden gemapt. Eén mailbox kan dus facturen van uiteenlopende leveranciers en lay-outs verwerken, maar levert altijd dezelfde kolomstructuur op.