Mecanismo OCR para analisar documentos PDF

Portrait of Sylvain Josserand
por Sylvain Josserand
4 minutos de leitura
Última atualização em

Olá, eu sou Sylvain, desenvolvedor de software aqui na Parseur. Acabamos de lançar nosso maior recurso até agora: um novo sistema para analisar arquivos PDF visualmente.

Novo: Extraia dados de PDF visualmente

A análise de documentos PDF usando OCR é o recurso mais solicitado em nossa página de solicitação de recursos.

Confiabilidade aprimorada para documentos complexos

Anteriormente, convertíamos documentos PDF em texto, tentando preservar o layout original das páginas. Isso funcionou muito bem para documentos simples (e é por isso que mantemos esse mecanismo, em conjunto com o novo).

No entanto, essa abordagem tornava particularmente difícil para nosso mecanismo legado, baseado em texto, extrair dados de forma confiável de documentos PDF complexos.

É por isso que estamos introduzindo um novo mecanismo de análise, chamado OCR (Reconhecimento Óptico de Caracteres). O editor de modelos OCR permite criar modelos desenhando caixas ao redor do texto que você deseja extrair. Você também pode definir rótulos que atuam como âncoras visuais em seu documento, ajudando o mecanismo a posicionar os campos na página.

Você encontrará informações mais detalhadas em nossa página de suporte aqui: Crie seu primeiro modelo OCR.

Campos opcionais, finalmente!

Este novo mecanismo permite que você defina campos opcionais e é mais resistente a pequenas alterações no layout do documento. Também é mais rápido para construir modelos e mais fácil ajustá-los, sem precisar recriá-los do zero. Isso porque você pode anexar várias amostras a um determinado modelo, permitindo definir campos que podem aparecer em alguns documentos, mas não em todos.

Retrocompatibilidade completa

Todos os recursos atuais, como tabelas, metadados, pós-processamento e campos estáticos, continuam funcionando com o novo mecanismo. O formato dos dados de saída e os webhooks permanecem inalterados.

Este novo mecanismo funciona em conjunto com o atual, e você pode até combinar modelos de ambos os mecanismos na mesma caixa de correio, aproveitando o melhor dos dois mundos.

Se você tiver modelos baseados em texto e OCR em sua caixa de correio, o modelo com mais campos terá prioridade.

Preços por página

Um crédito agora é contabilizado para cada página analisada com sucesso. Documentos que não são compostos por várias páginas (como um e-mail longo ou uma planilha) continuam sendo contabilizados como um único crédito quando processados com sucesso, independentemente do tamanho, como de costume.

O que vem a seguir?

Após o término da fase beta e a disponibilidade geral do novo mecanismo OCR, planejamos expandi-lo para funcionar com todos os documentos HTML, como e-mails e páginas da web.

Atualizações ao vivo sobre nosso progresso para o lançamento público

Abril de 2022

  • Adicionada configuração de margem de cabeçalho e rodapé personalizada para campos de tabela.
  • Adicionada opção para dividir um PDF em vários documentos a cada X páginas.
  • Adicionadas opções de mesclagem de linhas aos campos da tabela.
  • Melhoria das mensagens de erro no nível do campo no editor de modelo e no depurador.
  • Precisão do mecanismo de análise aprimorada.
  • Experiência do usuário aprimorada no editor de modelos.
  • Correção de bugs relatados por nossos testadores beta.

Maio de 2022

  • Mais usuários inscritos no programa de teste beta.
  • Adicionado gerenciamento de amostra de modelo (adicionar descrição, remover amostras).
  • Editor de modelo aprimorado para destacar campos opcionais e rótulos relacionados a campos ao passar o mouse (e vice-versa).
  • Precisão da extração de texto aprimorada usando a camada de texto codificada no PDF em vez de OCR, quando presente.
  • Programa beta aberto a todos por meio de inscrição na página da conta.
  • Bugs relatados por nossos clientes corrigidos.

Junho de 2022

  • Estamos perto do lançamento público. Vários clientes agora usam o novo mecanismo diariamente para analisar seus PDFs!
  • Mais usuários inscritos no programa de teste beta.
  • Detecção de linhas e extração de campos de várias linhas aprimoradas.
  • Detecção e extração de linhas e células da tabela aprimoradas.
  • Documentação de suporte adicional criada: Criar modelo OCR, Usar rótulos para posicionar campos, Extrair tabelas PDF.
  • Mais bugs relatados por nossos clientes corrigidos.

Julho de 2022: estamos no ar 🎉

Depois de meses de trabalho e semanas de testes, o mecanismo OCR está disponível para todos! Isso marca a versão 4 do Parseur, nossa maior atualização de recursos até agora.

  • Mecanismo de análise OCR ativado para todos os nossos usuários
  • Alguns bugs corrigidos e experiência do usuário aprimorada com muitos pequenos ajustes na usabilidade
  • Publicação de um tutorial de 13 minutos sobre como extrair texto de PDFs usando nosso novo mecanismo OCR:

Última atualização em

Software de extração de dados baseado em IA.
Comece a usar o Parseur hoje mesmo.

Automatize a extração de texto de e-mails, PDFs e planilhas.
Economize centenas de horas de trabalho manual.
Adote a automação do trabalho com IA.

Cadastre-se gratuitamente
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot