다중 엔진 문서 파싱
모든 문서에는 그에 맞는 파싱 엔진이 있습니다
Vision AI는 시각적 레이아웃, Text AI는 일반 텍스트, 템플릿은 고정 양식을 처리합니다. 세 엔진이 하나의 메일함에서 함께 작동합니다.
포함된 기능
Vision AI 추출
Vision AI는 문서를 이미지로 인식해 전체 페이지의 레이아웃과 시각적 맥락을 함께 읽습니다. 이미지 형태의 PDF, 스캔본, 복잡한 양식까지 사람이 보는 방식 그대로 처리합니다.
- 복잡한 PDF, 스캔, 양식에 최적
- 필기, 체크박스, 도장까지 인식
- 영어 지시문만으로 설정, 템플릿 불필요
Text AI 추출
문서가 먼저 일반 텍스트로 변환되며, 텍스트 레이어가 없으면 OCR이 자동 적용됩니다. Text AI는 추출된 텍스트만 분석하므로 형식이나 레이아웃의 영향을 받지 않습니다.
- 이메일, 텍스트 기반 PDF에 적합
- 시각적 레이아웃이 필요 없을 때 사용
- 영어 지시문만으로 설정, 템플릿 불필요
템플릿 기반 추출
메일함마다 필요한 만큼 템플릿을 만들 수 있습니다. Parseur가 문서에 가장 잘 맞는 템플릿을 자동 선택해 매번 동일한 결과를 보장하며, 이 방식은 AI를 사용하지 않습니다.
- 규격화된 양식, 시스템 발송 메일에 이상적
- 고정 레이아웃에 가장 높은 정확도
- 시각적 템플릿 에디터로 설정 가능
표 및 라인 아이템 추출
표의 각 행이 별도 레코드로 추출되어 스프레드시트에서 바로 활용할 수 있습니다. 세 가지 파싱 엔진 모두 지원하며, 스프레드시트 파일은 자동으로 표로 파싱됩니다.
- 문서마다 행 수가 달라도 자동 대응
- 여러 페이지에 걸친 표도 추출 가능
- 복잡한 다행 셀도 개별 필드로 정확히 추출
스캔과 이미지를 위한 OCR
OCR(광학 문자 인식)이 스캔본, 휴대폰 사진, 이미지 PDF에서 텍스트를 추출합니다. 텍스트 레이어가 없는 문서도 Text AI와 템플릿 엔진이 처리할 수 있는 형태로 만들어 줍니다.
- 스캔본, 휴대폰 사진, 이미지 PDF 지원
- 200개 이상 언어와 필기 인식
- 영역 OCR과 동적 OCR로 유연한 레이아웃 대응
문서 전처리
정확한 파싱은 깨끗한 입력에서 시작됩니다. Parseur는 들어오는 문서를 먼저 자동으로 정리·복구한 뒤 추출에 들어갑니다. 이 전처리 기술은 1억 건 이상의 실제 문서와 10년 이상의 운영 노하우로 검증되었습니다.
- 기울어진 스캔 자동 교정, 흐린 텍스트 복원
- 손상된 PDF와 비정상 인코딩도 자동 복원
- 국가별 날짜·숫자 형식 자동 인식
문서 파싱 작동 방식
방금 일어난 일
문서 수집
문서가 업로드, 이메일, API 또는 연결된 저장소를 통해 자동으로 들어왔습니다.
전처리
모든 문서는 먼저 정제 과정을 거칩니다. Parseur가 페이지 방향을 바로잡고, 기울어진 스캔을 교정하며, 흐린 텍스트를 복원해 문서 품질을 끌어올립니다.
OCR
스캔본, 휴대폰 사진, 이미지 PDF는 OCR로 텍스트가 추출됩니다. 이미 텍스트 레이어가 있는 문서는 이 단계를 자동으로 건너뜁니다.
엔진 선택
파싱 엔진이 자동으로 선택됩니다. 일치하는 템플릿이 있으면 템플릿이 우선 적용되고, 없으면 Vision AI(이미지 중심) 또는 Text AI(텍스트 중심)가 사용됩니다.
추출
선택된 엔진이 미리 정의한 스키마에 맞춰 필드를 구조화해 추출합니다. 이 데이터는 곧이어 정규화 단계로 전달되어 포맷팅과 검증을 거칩니다.
다음 단계
데이터 정규화 및 검증
추출된 필드는 검증과 포맷팅을 거쳐 후속 워크플로우에 맞게 구조화됩니다.