Normalizzazione e Validazione dei Dati

Uno schema unico, dati puliti per ogni documento

Dallo schema della casella fino alle regole di post-processing, ogni valore estratto arriva normalizzato, validato e pronto per i sistemi a valle.

Cosa è incluso

Schema della casella di posta

Definisci i campi una volta sola e ogni documento ricevuto dalla casella viene mappato sulla stessa struttura, pronta per le tue integrazioni.

  • Campi standard per valori singoli, campi tabella per dati ripetuti
  • Istruzioni in linguaggio naturale guidano l’AI campo per campo
  • Modifica i campi quando vuoi, da interfaccia o via API

Formattazione a livello di campo

Date, numeri, nomi e indirizzi vengono riconosciuti dal contesto del documento e normalizzati, con fallback sui valori predefiniti della casella.

  • Date estratte da qualsiasi formato, separatore o lingua
  • Numeri letti correttamente con qualsiasi separatore locale
  • Indirizzi geolocalizzati e suddivisi in componenti strutturati

Validazione dei dati

Ogni valore viene verificato rispetto allo schema della casella. Le anomalie sono evidenziate in interfaccia, attivano una notifica email e chiamano un webhook.

  • Controllo dello schema sul formato di ciascun campo
  • Controllo dei campi obbligatori per intercettare i dati mancanti
  • Controllo dei valori a scelta fuori dall’elenco consentito

Regole di post-processing

Quando le opzioni standard non bastano, aggiungi uno script Python. Viene eseguito al termine dell’estrazione per trasformare i valori o applicare la tua logica di business.

  • Combina, suddividi o calcola nuovi campi dai dati estratti
  • Applica logiche di business, lookup o trasformazioni condizionali
  • Disponibile nei piani Pro e superiori

Come funziona la normalizzazione dei dati

Cosa è appena successo

Parsing multi-motore dei documenti

Vision AI, Text AI, template, o OCR hanno estratto campi strutturati da ogni documento.

Scopri di più
1

Mappatura allo schema

I dati estratti vengono associati all’insieme fisso di campi definiti per la casella di posta. Ogni documento, indipendentemente dal layout originale, produce così un output con la stessa struttura.

Campi della casella
Testo Fornitore Acme Srl
Testo Fattura n. INV-0142
Data Emessa il 2026-05-07
Numero Totale 2840
Tabella Voci 3 colonne, 2 righe
Voce Q.tà Prezzo Consulenza 12 200 € Attrezzatura 2 220 €
2

Formattazione

Ogni campo viene formattato secondo il suo tipo. Date e numeri sono normalizzati seguendo le convenzioni locali grazie al contesto del documento, i nomi sono spezzati in nome, eventuale secondo nome e cognome, gli indirizzi sono suddivisi in componenti strutturati.

Data May 7, 2026 2026-05-07
Numero 1.234,56 € 1234.56
Indirizzo V. Roma 12, Milano
Via Roma 12 Milano MI 20121 Italia
3

Validazione

Ogni valore passa attraverso i controlli di validazione. Solo i documenti che li superano proseguono al post-processing, mentre le anomalie vengono evidenziate subito perché nessun errore arrivi a valle.

Validazione
Fornitore Acme Srl
Emessa il 2026-04-15
Totale Obbligatorio mancante
Stato rifiutato
Consentiti: aperto pagato chiuso
4

Post-process

Le regole Python vengono eseguite per ultime e applicano la logica di business che la formattazione standard non copre. Puoi combinare campi, fare lookup verso fonti esterne o adattare l’output al formato richiesto dai sistemi a valle.

post_process.py
def post_process(data):
if data["Totale"] > 1000:
data["Spedizione"] = "express"
else:
data["Spedizione"] = "standard"
return data
Numero Totale 2840
Testo Spedizione express

Cosa succede dopo

Export e integrazioni in tempo reale

I dati normalizzati vengono inviati in tempo reale a CRM, software di contabilità o database.

Scopri di più
Inizia ora

Dati puliti, pronti per i tuoi sistemi.

Definisci i campi che ti servono, scegli i formati giusti e ogni estrazione arriverà con la forma corretta.

Piano gratuito incluso, nessuna carta di credito richiesta
Elabora il tuo primo documento in meno di 2 minuti
Disdici quando vuoi, senza vincoli

Domande frequenti

Domande comuni sulla normalizzazione e validazione di Parseur, dal formato di date e numeri alle regole di validazione e post-processing Python.

La normalizzazione dei dati è il processo che trasforma i valori grezzi estratti in informazioni pulite e omogenee. Le date provenienti da fonti diverse vengono uniformate, i numeri sono interpretati secondo le convenzioni locali, gli indirizzi vengono suddivisi in componenti strutturati e ogni campo si allinea allo schema definito, così i sistemi a valle lavorano sempre su dati coerenti.

Il campo Data di Parseur riconosce qualsiasi combinazione di giorno, mese e anno, indipendentemente dal separatore o dalla lingua, e usa il contesto del documento per risolvere valori ambigui come 03/04/2026. L’output viene sempre convertito in un formato unico, così i sistemi a valle ricevono dati consistenti.

Sì. Il formato Nome completo separa automaticamente nome, eventuale secondo nome e cognome. Il formato Indirizzo geolocalizza l’indirizzo e lo ripartisce in componenti strutturati, in modo automatico una volta selezionato il formato corretto.

Sì. Ogni valore è verificato rispetto allo schema configurato per la casella: se mancano dati obbligatori, se sono presenti valori non consentiti o fuori dall’elenco a scelta, l’errore viene mostrato subito in interfaccia, fa partire una notifica email e attiva un webhook. Operatori e sistemi ricevono così avvisi tempestivi.

Sì. Le regole di post-processing permettono di inserire uno script Python che viene eseguito dopo la normale estrazione e validazione. Puoi così combinare, suddividere o ricalcolare campi, applicare logiche di business specifiche, fare lookup su fonti esterne o adattare l’output al formato richiesto dai sistemi a valle. Funzionalità disponibile nei piani Pro e superiori.

Senza normalizzazione, ogni documento produrrebbe un output leggermente diverso: date in formati variabili, numeri con separatori incoerenti, nomi e indirizzi concentrati in un’unica stringa. I sistemi a valle rischiano così di scartare, interpretare in modo errato o archiviare dati incoerenti. La normalizzazione garantisce dati affidabili e rende le integrazioni molto più solide.

Il campo Numero riconosce automaticamente qualsiasi separatore decimale e delle migliaia secondo gli standard regionali, comprese le convenzioni europee (1.234,56), americane (1,234.56), indiane lakh/crore (1,00,00,000) e la notazione contabile che usa le parentesi per i numeri negativi, ad esempio ($123,456,789.12). Il formato giusto viene dedotto dal contesto del documento, con fallback sui valori configurati nella casella.

Parseur gestisce i formati Testo, Data, Ora, Data e Ora, Numero, Nome completo, Indirizzo e Scelta. Ogni formato applica regole specifiche di parsing e validazione. I campi standard raccolgono valori singoli, mentre i campi tabella gestiscono dati ripetuti su più righe.

Il documento viene contrassegnato come processo fallito e non viene esportato, ricevi una notifica email e, se configurato, viene chiamato un webhook dedicato. Puoi intervenire manualmente per correggere i dati o agganciare la segnalazione al tuo sistema di monitoraggio.

Ogni casella di posta segue uno schema definito e ogni documento processato da quella casella viene riportato allo stesso insieme di campi. Puoi così gestire, ad esempio, fatture di fornitori diversi con layout differenti ottenendo sempre un output strutturato e coerente.