데이터 정규화 및 검증
모든 문서, 동일한 구조의 정제된 데이터
메일박스 스키마부터 후처리까지, 모든 추출값을 깔끔하게 정리하고 검증해 하위 시스템에 바로 전달합니다.
포함된 기능
메일박스 수준 스키마
메일박스 단위로 필드를 한 번 정의해 두면, 메일박스가 처리하는 모든 문서가 동일한 구조로 자동 매핑되어 하위 시스템 연동과 자동화가 안정적으로 작동합니다.
- 단일 값은 표준 필드, 반복 데이터는 테이블 필드로 구성
- 자연어 지시로 AI에게 각 필드의 추출 대상을 정의
- UI 또는 API를 통해 언제든 필드 조정 가능
필드 수준 포맷팅
내장 포맷팅으로 날짜, 숫자, 이름, 주소 등 다양한 필드를 표준화합니다. 문서 맥락에 맞는 포맷을 자동으로 산출하며, 필요한 경우 메일박스 기본값이 적용됩니다.
- 날짜는 언어와 상관없이 모든 순서, 구분자, 월 이름을 파싱
- 숫자는 지역별 소수점·천 단위 구분자를 인식해 통일
- 주소는 구성 요소를 분리해 구조화된 형식으로 변환
데이터 검증
추출된 결과는 메일박스 스키마와 대조해 자동으로 검증됩니다. 실패 항목은 Parseur UI에 즉시 표시되고, 이메일 알림과 웹훅으로 담당자와 시스템에 통보됩니다.
- 스키마 검증으로 AI 결과가 필드 구조와 일치하는지 확인
- 필수 필드 검증으로 누락 값을 실시간 감지
- 선택 필드 검증으로 허용값 외 데이터를 자동 표시
후처리 규칙
기본 포맷팅과 검증만으로 부족한 경우, 짧은 Python 스크립트로 맞춤 로직을 적용할 수 있습니다. 값 변환과 복잡한 비즈니스 규칙 검증에 자유롭게 활용합니다.
- 추출값으로 새 필드를 결합, 분리, 계산
- 비즈니스 로직 적용, 참조값 조회, 조건부 변환
- Pro 요금제 이상에서 이용 가능
데이터 정규화 동작 방식
방금 일어난 일
다중 엔진 문서 파싱
Vision AI, Text AI, 템플릿, OCR 엔진을 활용해 문서에서 구조화된 필드를 추출했습니다.
스키마에 매핑
추출값은 각 메일박스에 정의된 고정 필드 집합으로 매핑됩니다. 원본 레이아웃과 무관하게 모든 문서가 출력 시 동일한 컬럼 구조를 갖습니다.
포맷
각 필드는 미리 정의된 포맷팅 과정을 거칩니다. 날짜와 숫자는 문서 맥락을 활용해 지역별 차이를 통일하고, 이름은 성·이름·중간이름으로 분리하며, 주소는 구성 요소별로 구조화됩니다.
검증
모든 결과는 검증을 거친 뒤 통과 항목만 후처리 단계로 넘어갑니다. 실패 항목은 즉시 표시되어, 검토 전에는 자동 내보내기가 진행되지 않습니다.
후처리
마지막 단계에서 Python 규칙이 실행되어, 필드 포맷만으로 해결할 수 없는 비즈니스 로직을 구현합니다. 필드 결합, 참조 데이터 조회, 하위 시스템에 맞춘 출력 조정이 가능합니다.
다음 단계
실시간 내보내기 및 통합
정규화된 데이터가 실시간으로 CRM, 회계 시스템, 데이터베이스 등 하위 시스템으로 안전하게 전달됩니다.