Normalización y Validación de Datos

Datos limpios y con la misma forma para cada documento

Cada campo extraído llega normalizado, validado y con el formato exacto que esperan tu CRM, tu ERP o tu base de datos. Sin retoques manuales.

Qué incluye

Esquema único por buzón

Define los campos una vez y cada documento del buzón sale con la misma estructura. La base para integrar sin sorpresas en sistemas posteriores.

  • Campos estándar para valores únicos y de tabla para líneas repetidas
  • Instrucciones en lenguaje natural para guiar a la IA en cada campo
  • Ajusta el esquema cuando lo necesites desde la interfaz o por API

Formato automático por campo

Fechas, números, nombres y direcciones se ajustan al formato correcto. Parseur infiere el formato del documento y usa los valores por defecto del buzón como respaldo.

  • Fechas en cualquier orden, con cualquier separador y en varios idiomas
  • Números con separadores europeos, estadounidenses, indios o contables
  • Direcciones divididas en calle, ciudad, provincia, código postal y país

Validación de cada campo

Cada valor se contrasta con el esquema del buzón. Si algo falla, lo ves en la interfaz, recibes un correo y se dispara un webhook para tus sistemas.

  • Validación por esquema para que la IA no entregue datos fuera de formato
  • Campos obligatorios para detectar valores faltantes en el origen
  • Campos de elección para bloquear valores fuera de la lista permitida

Reglas de post-procesamiento en Python

Cuando el formato y la validación estándar no bastan, añades scripts Python cortos. Se ejecutan al final de la extracción para adaptar la salida a tu lógica de negocio.

  • Combina, divide o calcula nuevos campos a partir de los extraídos
  • Aplica lógica condicional, búsquedas o transformaciones a medida
  • Disponible desde el plan Pro

Cómo funciona la normalización de datos

Lo que acaba de ocurrir

Análisis de Documentos Multi-Motor

IA de Visión, IA de Texto, plantillas u OCR extrajeron campos estructurados de cada documento.

Más información
1

Mapeo al esquema

Los valores extraídos se asignan al conjunto fijo de campos que has definido para el buzón. Da igual el formato original del documento, la salida siempre tiene la misma estructura.

Campos del buzón
Texto Proveedor Acme SL
Texto Factura n.º INV-0142
Fecha Emitido el 2026-05-07
Número Total 2840
Tabla Conceptos 3 columnas, 2 filas
Artículo Cant. Precio Consultoría 12 200 € Equipamiento 2 220 €
2

Formatear

Cada campo se procesa según el formato configurado. Fechas y números se ajustan a las convenciones regionales según el contexto del documento, los nombres completos se separan en nombre y apellidos, y las direcciones se desglosan en sus componentes.

Fecha May 7, 2026 2026-05-07
Número 1.234,56 € 1234.56
Dirección Calle Alcala 28, Madrid
Calle de Alcalá 28 Madrid Madrid 28014 España
3

Validar

Cada valor pasa controles de validación antes de continuar. Los documentos correctos avanzan al post-procesamiento. El resto queda marcado para que ningún error llegue a tus sistemas posteriores.

Validación
Proveedor Acme SL
Emitido el 2026-04-15
Total Obligatorio falta
Estado rechazado
Permitidos: abierto pagado cerrado
4

Post-procesar

Si lo necesitas, las reglas opcionales en Python se ejecutan al final aplicando tu lógica de negocio. Puedes combinar datos, consultar referencias o adaptar la salida al milímetro de lo que pide cada sistema.

post_process.py
def post_process(data):
if data["Total"] > 1000:
data["Envío"] = "exprés"
else:
data["Envío"] = "estándar"
return data
Número Total 2840
Texto Envío exprés

Lo que ocurre después

Exportaciones e Integraciones en Tiempo Real

Los datos normalizados se entregan a tu CRM, software contable o base de datos al instante.

Más información
Empieza ya

Datos limpios, listos para integrar.

Define tus campos, elige tus formatos y comprueba en minutos cómo cada extracción sale con la forma exacta que necesitan tus sistemas.

Plan gratuito incluido, sin tarjeta de crédito
Procesa tu primer documento en menos de 2 minutos
Cancela cuando quieras, sin compromiso

Preguntas frecuentes

Respuestas a preguntas comunes sobre la normalización de datos y validación en Parseur, incluyendo formatos de fechas y números, validación, y reglas de post-procesamiento en Python.

Normalización de datos es el proceso de convertir los valores extraídos en bruto en información limpia y con formato uniforme. Por ejemplo, las fechas de distintos documentos se unifican al mismo formato, los números se interpretan según la convención regional adecuada, las direcciones se desglosan en partes y todos los campos se asignan a un esquema fijo. Así, tus sistemas posteriores reciben siempre el mismo tipo de datos.

El campo de Fecha de Parseur interpreta cualquier orden, separador o nombre de mes en varios idiomas. Usa el contexto del documento para resolver fechas ambiguas como 03/04/2026, y la salida se normaliza siempre al formato definido para que tus sistemas posteriores reciban datos consistentes.

Sí. El formato de nombre completo separa automáticamente nombre, segundo nombre y apellidos. El formato de dirección identifica los componentes y los estructura. Ambos procesos se ejecutan de forma automática al asignar el formato de campo adecuado.

Sí. Cada campo extraído se contrasta con el esquema definido en el buzón. Las reglas de obligatoriedad detectan valores faltantes y los campos de elección validan que los datos estén dentro del listado permitido. Los errores aparecen en la interfaz, generan avisos por correo y se envían por webhook, así notificas tanto a las personas como a las aplicaciones conectadas.

Sí. Las reglas de post-procesamiento te permiten añadir pequeños scripts en Python que se ejecutan después de la extracción y validación normal. Puedes usarlas para crear, dividir o calcular campos, aplicar reglas de negocio, consultar referencias externas o ajustar la salida a lo que pide tu sistema. Esta función está disponible desde el plan Pro.

Sin normalización, cada documento puede generar salidas ligeramente distintas: fechas en distintos formatos u órdenes, números con separadores variados, nombres y direcciones sin estructurar. Eso provoca rechazos o inconsistencias en los sistemas que reciben la información. La normalización garantiza resultados coherentes y fiables para la integración.

Parseur interpreta los números teniendo en cuenta los distintos formatos regionales, incluyendo notaciones europeas (1.234,56), estadounidenses (1,234.56), agrupaciones indias (1,00,00,000) y notaciones contables (por ejemplo, los paréntesis indican valores negativos: ($123,456,789.12)). El formato correcto se determina automáticamente según el documento, con los valores por defecto del buzón como respaldo.

Parseur soporta campos de tipo Texto, Fecha, Hora, Fecha y hora, Número, Nombre completo, Dirección y Campo de elección. Cada formato tiene sus propias reglas de interpretación y validación. Los campos estándar almacenan valores únicos y los de tabla guardan datos repetidos fila por fila.

El documento se marca con estado de Proceso Fallido y no se exporta automáticamente. También se envía una notificación por correo. Si tienes un webhook de fallos configurado, también se dispara. Puedes revisar y corregir el documento manualmente o gestionar los fallos desde tu propio sistema de monitoreo.

Cada buzón tiene su propio esquema y cualquier documento procesado se ajusta al conjunto fijo de campos definido para ese buzón. Así, aunque recibas facturas de proveedores muy distintos y con maquetaciones variadas, siempre obtienes la misma estructura de columnas al exportar los datos.