Dokumentparsning med flera motorer
Rätt parsningsmotor för varje dokument
Vision AI för visuella layouter, Text AI för ren text, mallar för fasta formulär. Alla tre motorerna körs i samma inkorg.
Det här ingår
Vision AI-extrahering
Vision-modeller tolkar sidor som bilder istället för bara text. AI:n ser dokumentet som en människa skulle göra, med full hänsyn till layout och visuellt sammanhang.
- Utmärkt för avancerade PDF:er, skanningar och komplexa formulär
- Identifierar handskrift, kryssrutor, stämplar och visuella ledtrådar
- Sätt upp med enkla instruktioner på engelska, ingen mall krävs
Text AI-extrahering
Först omvandlas dokumentet till klartext. Saknas textskikt körs OCR automatiskt. Därefter tolkar AI:n enbart den extraherade texten och bortser från layout och bilder.
- Perfekt för e-post, text-PDF:er och andra textbaserade dokument
- Användbart när layouten inte tillför värdefull information
- Skapa fält med enkla instruktioner på engelska, ingen mall krävs
Mallbaserad extrahering
Lägg till hur många mallar du vill per inkorg. Parseur väljer automatiskt den bästa matchningen för varje dokument och levererar identisk utdata varje gång, helt utan AI.
- Bäst för standardformulär och maskinskapad e-post
- Mest tillförlitliga extraheraren för dokument med fast layout
- Bygg mallar visuellt, en per unik dokumentlayout
Extrahering av tabeller och rader
Varje rad i en tabell blir en egen datapost, inte ett hopslaget värde. Funktionen finns i alla tre parsningsmotorerna. Inbyggda kalkylark extraheras automatiskt.
- Hanterar olika antal rader mellan dokument
- Stöd för tabeller som löper över flera sidor
- AI-motorerna delar upp komplexa flerradsposter i separata fält
OCR för skannade dokument och bilder
Optical Character Recognition (OCR) läser ut text från skanningar, foton och bild-PDF:er. OCR ger Text AI och mallmotorn ett textskikt att arbeta med när dokumentet saknar ett.
- Fungerar på skanningar, foton och bildbaserade PDF:er
- Flerspråkig OCR med över 200 språk, inklusive handskrift
- Mallmotorn använder Zonal OCR och Dynamisk OCR för alla layouter
Förbehandling av dokument
Tillförlitlig dokumentparsning börjar med noggrann förbehandling. Parseurs process är förfinad genom över 100 miljoner dokument och flera år av verkliga gränsfall.
- Räter ut lutande skanningar och kör om OCR vid förvrängd text
- Lagar trasiga PDF-filer, felkodade e-postbrev och korrupt HTML
- Automatiskt stöd för landsspecifika datum- och talformat
Så fungerar dokumentparsning
Vad hände nyss
Dokumentmottagning
Dokumentet laddades upp eller anlände automatiskt via e-post, API eller ansluten lagring.
Förbehandling
Varje dokument går först genom förbehandling. Parseur rättar sidriktning, rätar ut lutande skanningar och lagar förvrängt eller felkodat innehåll vid behov.
OCR
För skanningar, mobilfoton eller bildbaserade PDF:er används OCR för att läsa ut texten. Dokument med inbäddat textskikt hoppar över steget.
Välj motor
Parseur väljer automatiskt den bästa parsningsmotorn för varje dokument. Finns en matchande mall används den först, annars tar Vision AI hand om visuella layouter och Text AI om textinnehåll.
Extrahera
Vald motor plockar ut strukturerade fält enligt inkorgens schema. Varje fält går sedan vidare till normalisering för formatering och validering.
Vad händer sedan
Datavalidering och normalisering
Extraherade fält valideras, formateras och förbereds för användning i nedströms arbetsflöden.