Motore OCR per l'analisi di documenti PDF

Portrait of Sylvain Josserand
di Sylvain Josserand
4 minuti di lettura
Ultimo aggiornamento il

Ciao, sono Sylvain, mi occupo dello sviluppo software qui a Parseur. Siamo lieti di annunciare il rilascio della nostra funzionalità più importante: un nuovo sistema per l'analisi visiva dei PDF.

Novità: Estrai i dati dai PDF visivamente

L'analisi di documenti PDF tramite OCR è stata la funzionalità più richiesta sulla nostra pagina proposte di funzionalità.

Maggiore affidabilità per documenti complessi

In precedenza, convertivamo i documenti PDF in testo, cercando di mantenere il layout originale. Questo metodo funzionava bene per documenti semplici (motivo per cui manteniamo il motore di testo insieme a quello nuovo).

Tuttavia, con documenti PDF complessi, il nostro vecchio motore basato su testo incontrava difficoltà nell'estrazione affidabile dei dati.

Per questo motivo, introduciamo un nuovo motore di analisi basato su OCR (Optical Character Recognition, ovvero Riconoscimento Ottico dei Caratteri). L'editor di modelli OCR permette di creare modelli disegnando riquadri attorno al testo da estrarre. È anche possibile definire etichette come punti di riferimento o ancoraggi nel documento, aiutando il motore a individuare i campi nella pagina.

Maggiori dettagli sono disponibili sulla nostra pagina di supporto: Crea il tuo primo modello OCR.

Campi opzionali, finalmente!

Questo nuovo motore permette di definire campi opzionali ed è più resiliente a piccole variazioni nel layout del documento. È inoltre più veloce nella creazione di modelli e più semplice da adattare, senza dover ricominciare da zero. Questo è possibile perché si possono allegare diversi esempi a un singolo modello, consentendo di definire campi presenti solo in alcuni documenti.

Retrocompatibilità completa

Tutte le funzionalità attuali, come tabelle, metadati, post-elaborazione e campi statici, sono compatibili con il nuovo motore. Il formato dei dati di output e i webhook rimangono invariati.

Questo nuovo motore funziona in parallelo con quello attuale ed è possibile combinare modelli di entrambi i motori nella stessa casella di posta, sfruttando i vantaggi di entrambi.

Se nella casella di posta sono presenti modelli basati su testo e modelli OCR, il modello con il maggior numero di campi avrà la priorità.

Prezzi per pagina

Adesso viene conteggiato un credito per ogni pagina analizzata correttamente. Per i documenti non composti da più pagine (come email lunghe o fogli di calcolo), viene conteggiato un solo credito in caso di elaborazione corretta, indipendentemente dalla lunghezza, come di consueto.

Prossimi passi?

Una volta conclusa la fase beta e reso disponibile a tutti il nuovo motore OCR, prevediamo di estenderne la compatibilità a tutti i documenti HTML come email e pagine web.

Aggiornamenti in tempo reale sui nostri progressi verso il rilascio pubblico

Aprile 2022

  • Aggiunta l'impostazione personalizzata del margine di intestazione e piè di pagina per i campi delle tabelle.
  • Aggiunta l'opzione per suddividere un PDF in più documenti ogni X pagine.
  • Aggiunte opzioni di unione righe per i campi delle tabelle.
  • Migliorati i messaggi di errore a livello di campo nell'editor di modelli e nel debugger.
  • Migliorata la precisione del motore di analisi.
  • Migliorata l'esperienza utente nell'editor di modelli.
  • Corretti i bug segnalati dai nostri beta tester.

Maggio 2022

  • Ampliamento del programma di beta testing.
  • Aggiunta la gestione degli esempi di modelli (aggiungi descrizione, rimuovi esempi).
  • Miglioramenti all'editor di modelli: evidenziazione dei campi opzionali, visualizzazione delle etichette relative ai campi al passaggio del mouse e viceversa.
  • Migliorata la precisione dell'estrazione del testo utilizzando il livello di testo codificato nel PDF anziché l'OCR, quando disponibile.
  • Apertura del programma beta a tutti gli utenti tramite opt-in automatico nella pagina dell'account.
  • Risoluzione dei bug segnalati dai nostri clienti.

Giugno 2022

  • Siamo prossimi al rilascio pubblico. Diversi clienti utilizzano già quotidianamente il nuovo motore per l'analisi dei PDF!
  • Ulteriore ampliamento del programma di beta testing.
  • Migliorato il rilevamento delle righe e l'estrazione di campi multiriga.
  • Migliorato il rilevamento e l'estrazione di righe e celle delle tabelle.
  • Creata ulteriore documentazione di supporto: Crea modello OCR, Utilizza le etichette per posizionare i campi, Estrai tabelle PDF.
  • Risolti ulteriori bug segnalati dai nostri clienti.

Luglio 2022: siamo online 🎉

Dopo mesi di lavoro e settimane di test, il motore OCR è disponibile per tutti! Questo segna la versione 4 di Parseur, il nostro più grande aggiornamento fino ad oggi.

  • Attivazione del motore di analisi OCR per tutti gli utenti.
  • Risoluzione di bug e miglioramento dell'esperienza utente a 360 gradi con numerosi miglioramenti all'usabilità.
  • Pubblicazione di un tutorial di 13 minuti su come estrarre testo dai PDF utilizzando il nuovo motore OCR:

Ultimo aggiornamento il

Software di estrazione dati basato sull'IA.
Inizia a utilizzare Parseur oggi stesso.

Automatizza l'estrazione di testo da email, PDF e fogli di calcolo.
Risparmia centinaia di ore di lavoro manuale.
Adotta l'automazione del lavoro con l'IA.

Registrati gratuitamente
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot