Datanormalisering och validering

Samma struktur, ren data från varje dokument

Från brevlådans schema till efterbearbetningen landar varje extraherat värde rent, validerat och redo för dina system.

Det här ingår

Brevlådescheman

Ett konsekvent schema gör efterföljande integrationer och automationer pålitliga. Definiera fälten en gång, så mappas alla dokument som brevlådan tar emot till samma struktur.

  • Standardfält för enskilda värden, tabellfält för upprepade rader
  • Instruktioner i klartext styr vad AI:n ska fånga i varje fält
  • Justera fälten när som helst via gränssnittet eller via API:t

Fältnivåformatering

Inbyggda format normaliserar datum, siffror, adresser och mer. Rätt format avgörs utifrån dokumentets kontext, med brevlådans inställning som reserv.

  • Datum tolkas oavsett ordning, avskiljare eller månadsnamn
  • Siffror tolkas oavsett decimal- eller tusentalsavgränsare
  • Adresser geokodas och delas upp i strukturerade komponenter

Datavalidering

Varje extraherat värde stäms av mot brevlådans schema. Fel visas i gränssnittet, skickar mejlnotis och utlöser en webhook, så driftteam och system får besked direkt.

  • Schemakontroll säkerställer att AI-resultatet matchar fältstrukturen
  • Kontroll av obligatoriska fält fångar saknade värden vid källan
  • Validering mot listor av tillåtna värden upptäcker felaktiga poster

Efterbearbetningsregler

Räcker inte standardformatering och validering till kan du lägga till egna Python-skript. De körs efter extraktion och formar om värden eller validerar enligt din affärslogik.

  • Kombinera, dela upp eller beräkna nya fält från extraherade värden
  • Tillämpa affärslogik, uppslag eller villkorade transformationer
  • Tillgängligt på Pro-planen och uppåt

Så fungerar datanormaliseringen

Vad hände nyss

Dokumentparsning med flera motorer

Vision AI, Text AI, mallar eller OCR hämtade strukturerade fält från varje dokument.

Läs mer
1

Mappa till schema

Extraherade värden mappas till en fast uppsättning fält som definieras för brevlådan. Oavsett källa får varje dokument samma kolumnstruktur i utdata.

Brevlådans fält
Text Leverantör Acme AB
Text Fakturanr INV-0142
Datum Utfärdad 2026-05-07
Tal Totalt 2840
Tabell Rader 3 kolumner, 2 rader
Artikel Antal Pris Rådgivning 12 2 000 kr Utrustning 2 2 200 kr
2

Formatera

Varje fält bearbetas enligt sitt konfigurerade format. Datum och siffror normaliseras oavsett regional variation genom att tolka dokumentets kontext. Namn delas upp i för-, mellan- och efternamn, och adresser bryts ned i strukturerade delar.

Datum May 7, 2026 2026-05-07
Tal 1 234,56 kr 1234.56
Adress Sveavagen 42, 11359 Stockholm
Sveavägen 42 Stockholm Stockholms län 113 59 Sverige
3

Validera

Varje värde stäms av mot valideringsreglerna innan data går vidare. Dokument som klarar kontrollen går till efterbearbetning. Övriga flaggas, så inget lämnar Parseur obemärkt.

Validering
Leverantör Acme AB
Utfärdad 2026-04-15
Totalt Krävs saknas
Status avvisad
Tillåtna: öppen betald stängd
4

Efterbearbeta

Valfria Python-regler körs sist och tillämpar affärslogik som inte kan uttryckas med vanlig fältformatering. Kombinera fält, slå upp referensdata eller forma utdata exakt som dina system kräver.

post_process.py
def post_process(data):
if data["Totalt"] > 1000:
data["Frakt"] = "express"
else:
data["Frakt"] = "standard"
return data
Tal Totalt 2840
Text Frakt express

Vad händer sedan

Export och integration i realtid

Normaliserad data levereras till ditt CRM, bokföringssystem eller databas i realtid.

Läs mer
Kom igång

Ren data, redo för dina system.

Definiera de fält du behöver, välj rätt format och se hur varje extraherat värde får rätt struktur automatiskt.

Gratisplan ingår, inget kreditkort krävs
Bearbeta ditt första dokument på under 2 minuter
Avsluta när du vill, ingen bindningstid

Vanliga frågor och svar

Vanliga frågor om Parseurs normalisering och validering, från datum- och sifferformat till valideringsregler och Python-efterbearbetning.

Datanormalisering innebär att råextraherade värden omvandlas till ren, konsekvent och enhetlig data. Datum från olika dokument hamnar i samma format, siffror tolkas korrekt oavsett region, adresser delas upp i strukturerade delar och varje fält mappas till ett fast schema så att mottagande system alltid får samma form.

Parseurs datumfält tolkar alla ordningar, avskiljare och månadsnamn på olika språk, och använder dokumentets kontext för att skilja mellan tvetydiga datum som 03/04/2026. All utdata normaliseras till ett konsekvent format, så att ditt system alltid får rätt form.

Ja. Formatet Fullständigt namn delar automatiskt upp namnet i för-, mellan- och efternamn. Adressformatet geokodar och delar upp adressen i strukturerade komponenter. Båda aktiveras när respektive fältformat väljs.

Ja. Alla resultat stäms av mot brevlådans schema. Regler för obligatoriska fält fångar saknade värden, och validering mot listor av tillåtna värden upptäcker felaktiga poster. Fel visas i gränssnittet, skickas via mejl och utlöser en webhook, så att både driftteam och system får besked direkt.

Ja. Med efterbearbetningsregler lägger du till Python-skript som körs efter extraktion och standardvalidering. Kombinera, dela upp eller skapa nya fält från extraherade värden, tillämpa affärslogik, slå upp referensdata eller forma utdata exakt efter mottagande systems behov. Tillgängligt på Pro-planen och uppåt.

Utan normalisering skiljer sig utdata från varje dokument: datum kommer i olika ordning, siffror har olika avgränsare och namn eller adresser ligger ihop i enkla strängar. Verktyg längre ner i kedjan kan avvisa rader eller spara inkonsekvent data. Datanormaliseringen löser problemet vid källan och gör integrationerna pålitliga.

Sifferfält tolkar olika decimal- och tusentalsavgränsare enligt regionala format, exempelvis europeiska 1.234,56, amerikanska 1,234.56, indiska lakhs- och crore-grupperingar som 1,00,00,000 samt bokföringsnotation där parenteser markerar negativa tal, som ($123,456,789.12). Rätt format identifieras från dokumentets kontext, med brevlådans inställning som reserv.

Parseur stöder Text, Datum, Tid, Datumtid, Siffra, Fullständigt namn, Adress och Val. Varje format har egna tolknings- och valideringsregler. Standardfält fångar ett enskilt värde medan tabellfält hanterar upprepade data rad för rad.

Dokumentets status sätts till Processen misslyckades istället för tyst export, och en mejlnotis skickas. Om en webhook för misslyckad process är konfigurerad utlöses även den. Du kan granska och åtgärda dokumentet manuellt eller koppla felet till dina egna övervakningsflöden.

Varje brevlåda har sitt eget schema, och alla dokument som brevlådan tar emot mappas till samma fasta fältuppsättning. Det gör att en och samma brevlåda kan ta emot t.ex. fakturor från många leverantörer, med olika layouter, men ändå leverera samma kolumnstruktur för varje rad.