Normalização e Validação de Dados

Mesmo formato, dados limpos para cada documento

De esquemas de caixa de entrada ao pós-processamento, cada valor extraído chega limpo, validado e pronto para os sistemas posteriores.

O que está incluído

Esquemas por caixa de entrada

Defina seus campos uma vez e todo documento processado pela caixa de entrada segue o mesmo formato. É o que torna integrações e automações confiáveis.

  • Campos padrão para valores únicos e campos de tabela para listas
  • Instruções em linguagem simples orientam a IA em cada campo
  • Ajuste os campos pela interface ou via API a qualquer momento

Formatação por campo

Formatos prontos normalizam datas, números, nomes e endereços. O formato adequado é inferido pelo contexto do documento, com o padrão da caixa como alternativa.

  • Datas em qualquer ordem, separador ou nome de mês, em vários idiomas
  • Números com qualquer separador decimal ou de milhares por região
  • Endereços geolocalizados e divididos em partes estruturadas

Validação de dados

Cada valor extraído passa pelo esquema da caixa de entrada. Em caso de falha, o documento é sinalizado na interface, por e-mail e por webhook, sem passar despercebido.

  • Validação de esquema confere a saída da IA contra o tipo do campo
  • Campos obrigatórios sinalizam valores ausentes na origem
  • Campos de escolha barram valores fora da lista permitida

Regras de pós-processamento

Quando as regras padrão não bastam, adicione scripts Python personalizados. As regras são executadas após a extração para reformatar ou validar valores de acordo com a lógica do seu negócio.

  • Combine, divida ou calcule novos campos a partir dos valores extraídos
  • Aplique lógica de negócios, buscas e transformações condicionais
  • Disponível no plano Pro e superiores

Como funciona a Normalização de Dados

O que acabou de acontecer

Leitura de Documentos Multi-Engine

Vision IA, Texto IA, templates ou OCR extraíram campos estruturados de cada documento.

Saiba mais
1

Mapear para o esquema

Valores extraídos são conectados ao conjunto fixo de campos definidos para cada caixa de entrada. Independente do layout do documento de origem, a saída mantém sempre a mesma estrutura.

Campos da caixa
Texto Fornecedor Acme Ltda
Texto Fatura n.º INV-0142
Data Emitido em 2026-05-07
Número Total 2840
Tabela Itens 3 colunas, 2 linhas
Item Qtd Preço Consultoria 12 R$ 1.000 Equipamento 2 R$ 1.100
2

Formatar

Cada campo passa pela formatação selecionada. Datas e números são padronizados entre variações regionais com base no contexto, nomes são divididos em nome e sobrenome, e endereços em partes estruturadas.

Data May 7, 2026 2026-05-07
Número R$ 1.234,56 1234.56
Endereço Av Paulista 1578, Sao Paulo
Av. Paulista 1578 São Paulo SP 01310-200 Brasil
3

Validar

Cada resultado passa por validação antes de seguir para a próxima etapa. Documentos aprovados continuam para o pós-processamento; os demais são sinalizados para garantir que nada fuja ao controle do Parseur.

Validação
Fornecedor Acme Ltda
Emitido em 2026-04-15
Total Obrigatório faltando
Status recusado
Permitidos: aberto pago fechado
4

Pós-processar

Regras opcionais em Python são executadas por último, permitindo adaptar a saída conforme regras específicas do seu negócio. Combine campos, conecte dados de referência ou modele as informações exportadas conforme contratos do seu sistema.

post_process.py
def post_process(data):
if data["Total"] > 1000:
data["Envio"] = "expresso"
else:
data["Envio"] = "padrão"
return data
Número Total 2840
Texto Envio expresso

O que acontece depois

Exportações e Integrações em Tempo Real

Dados normalizados são entregues em seu CRM, sistema contábil ou banco de dados em tempo real.

Saiba mais
Comece agora

Dados limpos, prontos para seus sistemas.

Defina os campos necessários, escolha os formatos adequados e veja cada extração chegar no formato correto.

Plano gratuito incluso, sem precisar de cartão de crédito
Processe seu primeiro documento em menos de 2 minutos
Cancele quando quiser, sem compromisso

Perguntas Frequentes

Dúvidas comuns sobre normalização e validação de dados no Parseur: abrange formatos de datas, números, validações, regras de negócio e pós-processamento em Python.

A normalização de dados é a etapa que transforma valores extraídos crus em dados limpos, padronizados e prontos para uso. Com ela, datas são convertidas para um mesmo padrão, números respeitam as regras regionais, endereços são segmentados, e cada campo já se encaixa nos formatos esperados pelos sistemas seguintes — garantindo uniformidade e integridade ao fluxo de informação.

O campo Data do Parseur interpreta datas em qualquer ordem, separadores e nomes de mês, inclusive em vários idiomas, diferenciando automaticamente valores ambíguos como 03/04/2026. Sempre entrega a saída em um padrão fixo, pronto para ingestão pelos seus sistemas.

Sim. O formato Nome completo secciona nomes em partes (primeiro nome, nome do meio e sobrenome). O formato Endereço realiza geolocalização e organiza o endereço em componentes como rua, cidade e estado. Tudo isso ocorre automaticamente ao configurar o tipo de campo.

Sim. Cada valor extraído é conferido com o esquema definido. Campos obrigatórios sinalizam valores ausentes, e campos de escolha alertam sobre dados fora da lista permitida. Falhas ficam visíveis na interface, enviam alertas por e-mail e via webhook para integração com sistemas de monitoramento.

Sim. Usando pós-processamento, você pode inserir scripts Python para validar, dividir, combinar ou transformar campos, aplicar lógica de negócio, buscar informações externas e moldar a saída conforme as necessidades do seu sistema de destino. Disponível no plano Pro e superiores.

Sem normalização, cada documento pode gerar uma saída ligeiramente diferente: datas escritas de formas variadas, números com diferentes separadores, campos mesclados em strings únicas. Isso pode causar erros ou rejeição de dados em sistemas posteriores. A normalização elimina inconsistências, facilitando automações e integrações confiáveis.

O campo Número aceita separadores decimais e milhares em qualquer padrão regional, como o europeu 1.234,56, o americano 1,234.56 ou modelos indianos como 1,00,00,000, além de ler negativos em notação contábil (parênteses). O formato adequado é inferido automaticamente, com padrões de fallback da caixa de entrada.

O Parseur trabalha com campos Texto, Data, Hora, Data e hora, Número, Nome completo, Endereço e Escolha. Cada um conta com regras próprias de análise e validação, além de permitir definir campos padrão (valor único) ou de tabela (dados repetidos por linha).

O documento recebe o status "Processamento com Falha" ao invés de ser exportado automaticamente. Uma notificação por e-mail é enviada, e, se configurado, um webhook também é disparado. Você pode revisar/corrigir manualmente ou automatizar o tratamento das falhas.

Cada caixa de entrada possui um esquema próprio e todos os documentos processados seguem esse mesmo conjunto fixo de campos. Assim, mesmo recebendo documentos em formatos variados, sempre será entregue uma estrutura padronizada, facilitando a ingestão automatizada por qualquer sistema.