OCR-motor för att tolka PDF-dokument

Hej, jag heter Sylvain och utvecklar mjukvara här på Parseur. Vi har precis lanserat vår största funktion hittills: ett nytt system för visuell tolkning av PDF-filer.

Nyhet: Extrahera data visuellt från PDF

Att tolka PDF-dokument med hjälp av OCR har varit den mest efterfrågade funktionen på vår feature upvote-sida.

Förbättrad tillförlitlighet för komplexa dokument

Tidigare konverterade vi PDF-dokument till text och försökte bevara sidornas ursprungliga layout. Det fungerade bra för enklare dokument (och därför har vi kvar den gamla textmotorn som ett alternativ).

Men detta gjorde det särskilt svårt för vår äldre, textbaserade motor att pålitligt extrahera data från mer komplexa PDF-dokument.

Nu introducerar vi en helt ny tolkningsmotor, kallad OCR (Optical Character Recognition). Med OCR-mallredigeraren kan du skapa mallar genom att rita rutor runt den text du vill extrahera. Du kan också definiera etiketter som fungerar som referenspunkter eller ankare i dokumentet, vilket hjälper motorn att positionera fälten korrekt på sidan.

Du hittar mer information på vår supportsida här: Skapa din första OCR-mall.

Äntligen valfria fält!

Med den nya motorn kan du definiera valfria fält, och den är mycket mer robust mot små ändringar i dokumentets layout. Det går dessutom snabbare att bygga och lättare att anpassa mallar utan att behöva skapa allt från början. Du kan också bifoga flera exempel till en och samma mall. Det gör det möjligt att sätta upp fält som bara förekommer på vissa dokument och inte på andra.

Full bakåtkompatibilitet

Alla befintliga funktioner, såsom tabeller, metadata, efterbearbetning och statiska fält fungerar fortfarande med den nya motorn. Utdataformatet är identiskt och webhooks fungerar som tidigare.

Den nya motorn körs parallellt med den nuvarande, och du kan till och med kombinera mallar från båda motorerna i samma brevlåda för att dra nytta av båda metoderna.

Om du har både textbaserade och OCR-mallar i din brevlåda prioriteras mallen med flest fält.

Prissättning per sida

En kredit dras nu för varje sida som tolkas framgångsrikt. Om dokumentet inte består av flera sidor (som ett långt e-postmeddelande eller ett kalkylblad) dras bara en kredit när dokumentet behandlas, oavsett längd, precis som tidigare.

Vad är på gång härnäst?

När betafasen är avslutad och den nya OCR-motorn är tillgänglig för alla planerar vi även stöd för alla HTML-dokument som e-post och webbsidor.

Liveuppdateringar om vårt arbete mot lansering

April 2022

  • Lade till anpassade marginaler för sidhuvud och sidfot i tabellfält.
  • Lade till möjlighet att dela upp en PDF i flera dokument var X:e sida.
  • Lade till möjligheten att slå samman rader i tabellfält.
  • Förbättrade felmeddelanden på fältnivå i mallredigeraren och felsökaren.
  • Förbättrade tolkningsmotorns noggrannhet.
  • Förbättrade användarupplevelsen i mallredigeraren.
  • Åtgärdade buggar rapporterade av våra betatestare.

Maj 2022

  • Fler användare gick med i betatestprogrammet.
  • Lade till hantering av mallexempel (lägga till beskrivning, ta bort exempel).
  • Förbättrade mallredigeraren för att markera valfria fält och koppla etiketter till fält vid hovring och vice versa.
  • Förbättrade noggrannheten för textextraktion genom att använda det kodade textlagret i PDF-dokumentet i stället för OCR, när det finns tillgängligt.
  • Öppnade beta-programmet för alla via självregistrering på kontosidan.
  • Fixade buggar som kunder rapporterat.

Juni 2022

  • Nära publik lansering: flera kunder använder nu dagligen den nya motorn för att tolka sina PDF:er!
  • Fler användare anslöt sig till betaprogrammet.
  • Förbättrad linjedetektering och extraktion av flerradiga fält.
  • Förbättrad identifiering och extraktion av tabellrader och celler.
  • Skapade mer supportdokumentation: Skapa OCR-mall, Använd etiketter för att positionera fält, Extrahera PDF-tabeller.
  • Fler åtgärdade buggar tack vare feedback från våra kunder (tack!).

Juli 2022: vi är live 🎉

Efter månader av arbete och veckor av testning är OCR-motorn nu live för alla! Detta är version 4 av Parseur, vår största funktionella uppdatering någonsin.

  • OCR-tolkningsmotorn aktiverad för alla användare
  • Åtgärdade en del buggar och förbättrade användarupplevelsen med många små förändringar
  • Publicerade en 13 minuter lång video om hur du extraherar text från PDF med vår nya OCR-motor:

Senast uppdaterad

Kom igång

Redo att få bort det manuella arbetet
ur er verksamhet?

Skapa ett gratis konto på några minuter och se hur Parseur kan förenkla ert arbetsflöde.

Ingen modellträning krävs
Byggt för verkliga arbetsflöden, inte för experiment
Från enkelt gränssnitt till full API-integration