Motor OCR para analizar documentos PDF

Portrait of Sylvain Josserand
por Sylvain Josserand
5 minutos de lectura
Última actualización el

¡Hola! Soy Sylvain y trabajo en el desarrollo de software aquí en Parseur. Acabamos de lanzar nuestra mayor funcionalidad hasta la fecha: un nuevo sistema para analizar archivos PDF visualmente.

Nuevo: Extraiga datos de PDF visualmente

El análisis de documentos PDF utilizando OCR es la funcionalidad más solicitada en nuestra página de sugerencias de funcionalidades.

Fiabilidad mejorada para documentos complejos

Solíamos convertir documentos PDF a texto, tratando de conservar el diseño original de las páginas. Esto funcionaba muy bien para documentos simples (y por eso mantenemos el motor de texto junto con el nuevo).

Sin embargo, este método hacía particularmente difícil que nuestro antiguo motor basado en texto extrajera datos de documentos PDF complejos de forma fiable.

Por eso presentamos un nuevo motor de análisis, denominado OCR (del inglés Optical Character Recognition, Reconocimiento Óptico de Caracteres). El editor de plantillas OCR te permite crear plantillas dibujando cuadros alrededor del texto que quieres extraer. También puedes definir etiquetas que actúan como puntos de referencia o anclas en tu documento, lo que ayuda al motor a posicionar los campos en la página.

Encontrarás información más detallada en nuestra página de soporte aquí: Crea tu primera plantilla OCR.

Campos opcionales, ¡por fin!

Este nuevo motor te permite definir campos opcionales, y es más resistente a pequeños cambios en el diseño del documento. También es más rápido construir plantillas y más fácil ajustarlas, sin tener que crearlas desde cero. Esto se debe a que puedes adjuntar varias muestras a una plantilla determinada. Esto te permite definir campos que pueden aparecer en algunos documentos pero no en todos.

Retrocompatibilidad completa

Todas las funcionalidades actuales, como tablas, metadatos, posprocesamiento y campos estáticos, siguen funcionando con el nuevo motor. El formato de los datos de salida es el mismo, los webhooks no han cambiado.

Este nuevo motor funciona junto con el actual, e incluso puedes mezclar y combinar las plantillas de ambos motores en el mismo buzón, para obtener lo mejor de ambos mundos.

Si tienes plantillas basadas en texto y OCR en tu buzón, la plantilla con más campos tendrá prioridad sobre las demás.

Precio por página

Ahora se contabiliza un crédito por cada página analizada con éxito. Si un documento no está compuesto por varias páginas (como un correo electrónico largo o una hoja de cálculo), entonces solo se contabiliza un crédito cuando ese documento se procesa con éxito, independientemente de la longitud del documento, como de costumbre.

¿Qué sigue?

Una vez finalizada la fase beta y que el nuevo motor OCR esté disponible para todos, tenemos previsto hacer que funcione con todos los documentos HTML, como correos electrónicos y páginas web.

Actualizaciones en vivo sobre nuestro progreso hacia el lanzamiento público

Abril de 2022

  • Se ha añadido la configuración de los márgenes de encabezado y pie de página personalizados para los campos de tabla.
  • Se ha añadido la opción de dividir un PDF en varios documentos cada X páginas.
  • Se han añadido opciones de combinación de filas a los campos de tabla.
  • Se han mejorado los mensajes de error a nivel de campo en el editor de plantillas y el depurador.
  • Precisión del motor de análisis mejorada.
  • Experiencia de usuario mejorada en el editor de plantillas.
  • Se han corregido los errores que nos han comunicado nuestros valientes beta testers.

Mayo de 2022

  • Se han incorporado más usuarios al programa de pruebas beta.
  • Se ha añadido la gestión de muestras de plantillas (añadir descripción, eliminar muestras).
  • Se ha mejorado el editor de plantillas para resaltar los campos opcionales, las etiquetas relacionadas con los campos al pasar el ratón por encima y viceversa.
  • Precisión de la extracción de texto mejorada mediante el uso de la capa de texto codificado en el PDF en lugar del OCR, si está presente.
  • Se ha abierto el programa beta a todo el mundo mediante la opción de suscripción en la página de la cuenta.
  • Se han corregido los errores notificados por nuestros clientes.

Junio de 2022

  • Estamos cerca del lanzamiento público. ¡Varios clientes ya utilizan el nuevo motor cada día para analizar sus archivos PDF!
  • Se han incorporado más usuarios al programa de pruebas beta.
  • Se ha mejorado la detección de líneas y la extracción de campos de varias líneas.
  • Se ha mejorado la detección y extracción de filas y celdas de tablas.
  • Se ha creado documentación de soporte adicional: Crear plantilla OCR, Utilizar etiquetas para posicionar campos, Extraer tablas PDF.
  • Se han corregido más errores notificados por nuestros clientes (¡gracias a todos!).

Julio de 2022: ¡ya está aquí! 🎉

Tras meses de trabajo y semanas de pruebas, ¡el motor OCR ya está disponible para todo el mundo! Esto marca la versión 4 de Parseur, nuestra mayor actualización de funciones hasta la fecha.

  • Se ha activado el motor de análisis OCR para todos nuestros usuarios
  • Se han corregido algunos errores y se ha mejorado la experiencia del usuario en general con muchas pequeñas mejoras en la usabilidad.
  • Se ha publicado un tutorial de 13 minutos sobre cómo extraer texto de archivos PDF utilizando nuestro nuevo motor OCR:

Última actualización el

Software de extracción de datos por IA.
Comienza a usar Parseur hoy.

Automatiza la extracción de texto de correos electrónicos, archivos PDF y hojas de cálculo.
Ahorra cientos de horas de trabajo manual.
Adopta la automatización del trabajo con IA.

Abre una cuenta gratis
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot