데이터 정규화 및 검증

모든 문서, 동일한 구조의 정제된 데이터

메일박스 스키마부터 후처리까지, 모든 추출값이 깔끔하게 정제되고 검증되어 하위 시스템에 바로 전달될 수 있도록 준비됩니다.

무료로 가입하기

포함된 기능

메일박스 수준 스키마

일관된 스키마는 하위 시스템 연동과 자동화를 실제로 안정적이게 만듭니다. 필드를 한 번 정의해 두면 메일박스가 처리하는 모든 문서를 동일한 구조로 매핑합니다.

단일 값은 표준 필드, 반복 데이터는 테이블 필드로 구성
자연어 지시로 AI에게 각 필드의 추출 대상을 정의
UI 또는 API를 통해 언제든 필드 조정 가능

필드 수준 포맷팅

내장 포맷으로 날짜, 숫자, 주소 등 다양한 필드를 정규화합니다. 문서 맥락에 맞는 올바른 포맷을 자동으로 유추하며, 메일박스 기본값이 대체제로 적용됩니다.

날짜는 언어와 상관없이 모든 순서, 구분자, 월 이름을 파싱
숫자는 지역별 소수점 및 천 단위 구분자를 인식해 파싱
주소 필드는 위치를 식별하고 주소를 구조화된 구성 요소로 분리

데이터 검증

자동화된 데이터 검증은 추출된 모든 결과를 메일박스 스키마와 대조해 확인합니다. 실패 항목은 UI에 표시되고, 이메일 알림과 웹훅을 트리거하여 운영 팀과 시스템 모두 즉시 알 수 있습니다.

스키마 검증으로 AI 결과가 필드 구조와 일치하는지 확인
필수 필드 검증으로 소스에서 누락된 값을 실시간 감지
선택 필드 검증으로 허용된 목록 외의 값을 자동 표시

후처리 규칙

기본 포맷팅과 검증만으로 부족한 경우, 짧은 Python 스크립트를 추가할 수 있습니다. 규칙은 추출 후에 실행되어 값을 재구성하거나 비즈니스 로직에 맞춘 맞춤 검증을 수행합니다.

추출값으로 새 필드를 결합, 분리, 계산
비즈니스 로직 적용, 참조값 조회 또는 조건부 변환
Pro 요금제 이상에서 이용 가능

데이터 정규화 동작 방식

방금 일어난 일

AI 문서 추출 및 파싱

Vision AI, Text AI, 템플릿, OCR 엔진을 활용해 각 문서에서 구조화된 필드를 추출했습니다.

자세히 알아보기

스키마에 매핑

추출값은 각 메일박스에 정의된 고정 필드 집합으로 매핑됩니다. 원본 레이아웃과 무관하게 모든 문서가 출력 시 동일한 컬럼 구조를 갖습니다.

메일박스 필드

텍스트 공급사 ㈜아크미

텍스트 청구서 번호 INV-0142

날짜 발행일 2026-05-07

숫자 합계 2840

표 항목 3열, 2행

품목 수량 단가 컨설팅 12 $200 장비 2 $220

포맷

각 필드는 설정된 포맷팅 과정을 거칩니다. 날짜와 숫자는 문서 맥락을 활용해 지역별 차이를 통일하고, 이름은 성·이름·중간이름으로 분리하며, 주소는 구조화된 요소별로 파싱됩니다.

날짜 May 7, 2026 2026-05-07

숫자 $1,234.56 1234.56

주소 742 Evergreen Ter, Springfield 62704

742 Evergreen Terrace Springfield IL 62704 USA

검증

모든 결과는 다음 단계로 넘어가기 전 검증 과정을 거칩니다. 통과한 문서는 후처리 단계로 진행되며, 나머지는 표시되어 Parseur에서 알림 없이 누락되는 일이 없도록 합니다.

검증

공급사 ㈜아크미

발행일 2026-04-15

합계 필수 누락

상태 반려

허용값: 미결제 결제완료 종료

후처리

마지막으로 선택적 Python 규칙이 실행되어, 필드 수준의 포맷팅만으로는 표현할 수 없는 비즈니스 로직을 적용합니다. 필드를 결합하거나 참조 데이터를 조회하고, 하위 시스템의 계약 요건에 정확히 맞게 출력을 조정할 수 있습니다.

post_process.py

def post_process(data):

if data["합계"] > 1000:

data["배송"] = "특급"

else:

data["배송"] = "일반"

return data

숫자 합계 2840

텍스트 배송 특급

다음 단계

실시간 내보내기 및 통합

정규화된 데이터가 CRM, 회계 시스템, 데이터베이스로 실시간 전달됩니다.

자세히 알아보기

모든 기능으로 돌아가기

시스템에 바로 쓸 수 있는 정제된 데이터.

필요한 필드를 정의하고 적합한 포맷을 선택하세요. 모든 추출 결과가 원하는 형식으로 도착하는 전 과정을 직접 확인해 보세요.

무료 플랜 포함, 신용카드 불필요

2분 이내 첫 문서 처리

약정 없이 언제든 해지 가능

자주 묻는 질문

날짜 및 숫자 포맷부터 검증 규칙, Python 후처리까지 Parseur의 정규화 및 검증에 관한 자주 묻는 질문 모음입니다.

데이터 정규화는 추출된 원시 값을 일관되고 깔끔한 형태의 데이터로 전환하는 단계입니다. 여러 문서에서 추출된 날짜가 동일한 포맷으로 통일되고, 숫자는 지역 관습에 맞게 올바르게 파싱되며, 주소는 구조화된 부분으로 분리됩니다. 모든 필드가 고정된 스키마에 매핑되므로 하위 시스템은 항상 일관된 구조의 데이터를 받을 수 있습니다.

정규화가 없으면 문서마다 출력 형식이 조금씩 달라져, 날짜 순서가 다르고 숫자의 구분자가 제각각이며 이름과 주소가 단일 문자열로 뒤섞여 출력됩니다. 결과적으로 하위 도구는 행을 거부하거나 일관성 없는 데이터를 저장하게 됩니다. 정규화는 소스 단계에서 이를 해결하므로 연동이 실제로 안정적으로 유지됩니다.

숫자 필드는 유럽식 1.234,56 및 미국식 1,234.56 표기법, 1,00,00,000과 같은 인도의 라크(lakh) 및 크로(crore) 그룹화, ($123,456,789.12)처럼 괄호로 음수를 나타내는 회계 표기 등 다양한 지역 포맷의 소수점 및 천 단위 구분자를 파싱합니다. 문서 맥락을 통해 올바른 포맷을 유추하며 메일박스 기본값이 대체제로 적용됩니다.

Parseur는 텍스트, 날짜, 시간, 날짜시간, 숫자, 전체 이름, 주소, 선택 필드 포맷을 지원합니다. 각 포맷에는 고유한 파싱 및 검증 규칙이 있으며, 표준 필드는 단일 값을 캡처하고 테이블 필드는 반복 데이터를 행 단위로 캡처합니다.

자동으로 내보내기되는 대신 문서의 상태가 '처리 실패'로 설정되고 이메일 알림이 발송됩니다. '처리 실패' 웹훅이 설정되어 있다면 이 또한 실행됩니다. 문서를 수동으로 검토하여 수정하거나 모니터링 시스템에 실패 항목을 연결할 수 있습니다.

각 메일박스는 고유한 스키마를 가지며, 메일박스가 처리하는 모든 문서는 동일한 고정 필드 집합에 매핑됩니다. 따라서 단일 메일박스에서 다양한 레이아웃을 가진 여러 공급업체의 송장을 수집하더라도 모든 행에 대해 동일한 컬럼 구조를 출력할 수 있습니다.

Parseur 메일박스 스키마에서 하위 시스템이 기대하는 필드를 한 번 정의하면, 모든 문서가 해당 구조로 매핑됩니다. 필드 포맷팅은 지역별 차이에 관계없이 날짜, 숫자, 이름, 주소를 표준화하고, 자동화된 데이터 검증은 내보내기 전에 누락되거나 잘못된 값을 찾아냅니다. 또한 선택적인 Python 후처리를 통해 표준 포맷으로 표현할 수 없는 비즈니스 로직을 처리할 수 있습니다. 데이터는 중간에 별도의 정리 스크립트 없이 이미 일관성 있는 상태로 시스템에 도착합니다.

Parseur의 날짜 필드는 언어와 상관없이 모든 순서, 구분자, 월 이름을 파싱하며, 문서 맥락을 활용해 03/04/2026과 같이 모호한 값을 명확하게 해석합니다. 하위 시스템이 항상 동일한 구조의 데이터를 받을 수 있도록 출력은 일관된 포맷으로 정규화됩니다.

네. 전체 이름 포맷은 이름을 성, 이름, 중간이름으로 분리합니다. 주소 포맷은 위치를 식별하고 주소를 구조화된 구성 요소로 분리합니다. 필드 포맷이 설정되면 두 작업 모두 자동으로 실행됩니다.

네. 모든 결과는 메일박스 스키마와 대조해 검증되며, 필수 필드 규칙은 누락된 값을 잡아내고 선택 필드 규칙은 허용된 목록 외의 값을 표시합니다. 실패 항목은 UI에 표시되고, 이메일 알림을 보내며, 웹훅을 트리거하여 운영 팀과 시스템 모두 알 수 있도록 합니다.

네. 후처리 규칙을 사용하면 추출 및 표준 검증 후 실행되는 작은 Python 스크립트를 추가할 수 있습니다. 이를 통해 추출된 값으로 새 필드를 결합, 분리, 계산하거나 비즈니스 로직을 적용하고, 참조 조회를 실행하거나 하위 시스템의 요구 사항에 정확히 맞도록 출력을 구성할 수 있습니다. Pro 요금제 이상에서 지원됩니다.