Extração de Documentos com Múltiplos Motores
O motor de extração ideal para cada documento
Vision AI para layouts visuais, Text AI para texto puro e templates para formulários fixos. Os três motores convivem na mesma caixa de entrada.
O que está incluído
Extração por Vision AI
Modelos de visão analisam cada página como imagem, e não só como texto. A IA interpreta o documento com o contexto visual completo, do mesmo jeito que um leitor humano faria.
- Ideal para PDFs complexos, digitalizações e formulários variados
- Lê escrita manual, caixas de seleção, carimbos e marcações visuais
- Configure por instruções em português, sem precisar de template
Extração por Text AI
O documento é primeiro convertido em texto puro, com OCR quando não existe camada de texto. A IA extrai os campos só a partir desse texto, sem considerar layout ou imagens.
- Ideal para e-mails, PDFs simples e documentos com foco em texto
- Indicado quando o layout não acrescenta informação útil
- Configure por instruções em português, sem precisar de template
Extração baseada em templates
Adicione quantos templates precisar em cada caixa de entrada. O Parseur escolhe o mais adequado para cada documento e entrega sempre a mesma estrutura de saída, sem IA.
- Indicado para formulários padronizados e e-mails gerados por sistemas
- Método de extração mais previsível para layouts que não mudam
- Crie no editor visual, um template para cada formato de documento
Extração de tabelas e itens de linha
Cada linha vira um registro próprio, nunca um campo mesclado. Funciona com qualquer motor de extração. Para planilhas nativas, a extração de tabela é automática.
- Aceita quantidade variável de linhas por documento
- Suporta tabelas que avançam por várias páginas
- Os motores de IA separam linhas com várias quebras em campos próprios
OCR para digitalizações e imagens
O Reconhecimento Óptico de Caracteres lê o texto de digitalizações, fotos e PDFs somente imagem. Abastece os motores Text AI e templates quando não há camada de texto.
- Funciona com digitalizações, fotos de celular e PDFs somente imagem
- OCR multilíngue cobre mais de 200 idiomas, inclusive escrita manual
- Motor de templates usa OCR Zonal e Dinâmico para qualquer layout
Pré-processamento de documentos
Extração confiável começa com o preparo correto do documento. O pré-processamento do Parseur foi forjado em mais de 100 milhões de documentos e uma década de operação real.
- Endireita digitalizações tortas e refaz OCR em textos ilegíveis
- Recupera PDFs danificados, e-mails corrompidos e HTML com defeitos
- Detecta formatos de data e número específicos de cada país
Como funciona a Extração de Documentos
O que acabou de acontecer
Recebimento de Documentos
Documentos foram enviados manualmente ou chegaram automaticamente por e-mail, API ou armazenamento conectado.
Pré-processar
Cada documento passa por uma limpeza inicial. O Parseur corrige a orientação da página, endireita digitalizações inclinadas e recupera conteúdo corrompido ou fora de ordem sempre que precisa.
OCR
Para digitalizações, fotos de celular e PDFs somente imagem, o Parseur aplica OCR para extrair o texto. Documentos com camada de texto já existente seguem direto para a próxima etapa.
Escolha do motor
O Parseur identifica sozinho qual motor aplicar a cada documento. Templates têm prioridade quando há correspondência. Caso contrário, Vision AI cuida de páginas visuais e Text AI assume os conteúdos predominantemente textuais.
Extrair
O motor escolhido extrai os campos estruturados do documento, seguindo o esquema definido na sua caixa de entrada. Depois, cada campo segue para normalização e validação.
O que acontece depois
Normalização e Validação dos Dados
Os dados extraídos são conferidos, formatados e preparados para os próximos workflows.