데이터 정규화 및 검증

모든 문서, 동일한 구조의 정제된 데이터

메일박스 스키마부터 후처리까지, 모든 추출값을 깔끔하게 정리하고 검증해 하위 시스템에 바로 전달합니다.

포함된 기능

메일박스 수준 스키마

메일박스 단위로 필드를 한 번 정의해 두면, 메일박스가 처리하는 모든 문서가 동일한 구조로 자동 매핑되어 하위 시스템 연동과 자동화가 안정적으로 작동합니다.

  • 단일 값은 표준 필드, 반복 데이터는 테이블 필드로 구성
  • 자연어 지시로 AI에게 각 필드의 추출 대상을 정의
  • UI 또는 API를 통해 언제든 필드 조정 가능

필드 수준 포맷팅

내장 포맷팅으로 날짜, 숫자, 이름, 주소 등 다양한 필드를 표준화합니다. 문서 맥락에 맞는 포맷을 자동으로 산출하며, 필요한 경우 메일박스 기본값이 적용됩니다.

  • 날짜는 언어와 상관없이 모든 순서, 구분자, 월 이름을 파싱
  • 숫자는 지역별 소수점·천 단위 구분자를 인식해 통일
  • 주소는 구성 요소를 분리해 구조화된 형식으로 변환

데이터 검증

추출된 결과는 메일박스 스키마와 대조해 자동으로 검증됩니다. 실패 항목은 Parseur UI에 즉시 표시되고, 이메일 알림과 웹훅으로 담당자와 시스템에 통보됩니다.

  • 스키마 검증으로 AI 결과가 필드 구조와 일치하는지 확인
  • 필수 필드 검증으로 누락 값을 실시간 감지
  • 선택 필드 검증으로 허용값 외 데이터를 자동 표시

후처리 규칙

기본 포맷팅과 검증만으로 부족한 경우, 짧은 Python 스크립트로 맞춤 로직을 적용할 수 있습니다. 값 변환과 복잡한 비즈니스 규칙 검증에 자유롭게 활용합니다.

  • 추출값으로 새 필드를 결합, 분리, 계산
  • 비즈니스 로직 적용, 참조값 조회, 조건부 변환
  • Pro 요금제 이상에서 이용 가능

데이터 정규화 동작 방식

방금 일어난 일

다중 엔진 문서 파싱

Vision AI, Text AI, 템플릿, OCR 엔진을 활용해 문서에서 구조화된 필드를 추출했습니다.

자세히 알아보기
1

스키마에 매핑

추출값은 각 메일박스에 정의된 고정 필드 집합으로 매핑됩니다. 원본 레이아웃과 무관하게 모든 문서가 출력 시 동일한 컬럼 구조를 갖습니다.

메일박스 필드
텍스트 공급사 ㈜아크미
텍스트 청구서 번호 INV-0142
날짜 발행일 2026-05-07
숫자 합계 275000
항목 3열, 2행
품목 수량 단가 컨설팅 12 ₩50,000 장비 2 ₩30,000
2

포맷

각 필드는 미리 정의된 포맷팅 과정을 거칩니다. 날짜와 숫자는 문서 맥락을 활용해 지역별 차이를 통일하고, 이름은 성·이름·중간이름으로 분리하며, 주소는 구성 요소별로 구조화됩니다.

날짜 May 7, 2026 2026-05-07
숫자 ₩1,234,560 1234560
주소 강남구 테헤란로 142
테헤란로 142 강남구 서울 06234 대한민국
3

검증

모든 결과는 검증을 거친 뒤 통과 항목만 후처리 단계로 넘어갑니다. 실패 항목은 즉시 표시되어, 검토 전에는 자동 내보내기가 진행되지 않습니다.

검증
공급사 ㈜아크미
발행일 2026-04-15
합계 필수 누락
상태 반려
허용값: 미결제 결제완료 종료
4

후처리

마지막 단계에서 Python 규칙이 실행되어, 필드 포맷만으로 해결할 수 없는 비즈니스 로직을 구현합니다. 필드 결합, 참조 데이터 조회, 하위 시스템에 맞춘 출력 조정이 가능합니다.

post_process.py
def post_process(data):
if data["합계"] > 1000:
data["배송"] = "특급"
else:
data["배송"] = "일반"
return data
숫자 합계 275000
텍스트 배송 특급

다음 단계

실시간 내보내기 및 통합

정규화된 데이터가 실시간으로 CRM, 회계 시스템, 데이터베이스 등 하위 시스템으로 안전하게 전달됩니다.

자세히 알아보기
시작하기

시스템에 바로 쓸 수 있는 정제 데이터.

필요한 필드를 정의하고 적합한 포맷을 선택하세요. 모든 추출 결과가 원하는 형식으로 도착하는 전 과정을 직접 확인해 보세요.

무료 플랜 포함, 신용카드 불필요
2분 이내 첫 문서 처리
약정 없이 언제든 해지 가능

자주 묻는 질문

날짜·숫자 포맷부터 검증 규칙, Python 후처리까지 Parseur의 정규화 및 검증에 관한 주요 질문 모음입니다.

데이터 정규화는 추출된 원시 값을 일관되고 깔끔한 형태로 전환하는 과정입니다. 여러 문서에서 추출된 날짜, 숫자, 주소 등이 표준 포맷으로 통일되고, 모든 필드는 고정된 스키마에 매핑되어 하위 시스템에서 항상 기대하는 구조로 데이터를 받을 수 있습니다.

Parseur의 날짜 필드는 언어, 순서, 구분자, 월 이름 표기와 관계없이 자동으로 인식해 파싱합니다. 또한 문서 맥락을 활용해 모호한 날짜(예: 03/04/2026)도 올바르게 해석하고, 결과를 항상 동일한 표준 포맷으로 제공합니다.

가능합니다. 전체 이름은 이름·중간이름·성으로 자동 분리되고, 주소도 구성 요소별로 구조화되어 추출됩니다. 필드 포맷을 지정하면 자동으로 적용됩니다.

네. 모든 추출 결과는 미리 정의된 메일박스 스키마와 필드 기준에 따라 자동 검증됩니다. 필수 규칙과 허용값 규칙으로 누락과 유효성 오류가 즉시 감지되며, 실패 시 UI, 이메일, 웹훅으로 알림이 전송됩니다.

가능합니다. 후처리 규칙을 이용하면 데이터 추출과 표준 검증 이후 짧은 Python 스크립트를 실행해 맞춤 변환·검증·저장 규칙을 추가할 수 있습니다(예: 필드 결합·분리·계산, 참조값 적용 등). Pro 요금제 이상에서 지원됩니다.

정규화가 없으면 문서마다 출력 형식이 달라 날짜, 숫자, 이름, 주소가 제각각 표기되고, 하위 시스템에서 데이터 불일치나 오류가 발생할 수 있습니다. 정규화는 일관성과 신뢰성 확보에 필수적인 단계입니다.

유럽식 1.234,56, 미국식 1,234.56, 인도식 1,00,00,000, 회계 표기법 등 다양한 지역별 숫자 포맷을 자동으로 감지해 일관된 형태로 변환합니다. 문서 맥락과 메일박스 기본값도 함께 반영합니다.

Parseur는 텍스트, 날짜, 시간, 날짜시간, 숫자, 전체 이름, 주소, 선택값을 지원하며, 각 필드 타입별로 파싱 및 검증 로직이 적용됩니다. 표준 필드는 단일 값을, 테이블 필드는 반복 데이터를 처리합니다.

검증에 실패하면 문서 상태가 '처리 실패'로 지정되어 자동 내보내기가 중단됩니다. 알림과 웹훅으로 즉시 통보되며, 수동 검토 후 재처리하거나 실시간 모니터링 시스템에 연동할 수 있습니다.

각 메일박스는 고유 스키마를 가지며, 처리되는 모든 문서 데이터를 동일한 고정 필드 구조로 매핑합니다. 다양한 공급업체 송장이나 여러 레이아웃이 들어오더라도 결과 데이터는 항상 원하는 컬럼 구조로 출력됩니다.