동적 OCR이란?
동적 OCR은 Parseur가 개발한 새로운 OCR 엔진입니다. 기존 AI OCR이나 영역 OCR이 데이터 추출에는 효과적이지만, 각각 한계가 있습니다. Parseur는 이러한 한계를 극복하고 데이터 추출을 더욱 효율적으로 만들기 위해 동적 OCR을 도입했습니다.
영역 OCR의 한계
영역 OCR은 문서 내에서 특정 "영역"을 정의하여 해당 영역에서만 데이터를 추출합니다. 데이터 필드가 고정된 위치에 있을 때 가장 효과적으로 동작합니다. 영역 OCR의 단점은 다음과 같습니다:
- 문서마다 위치가 바뀌는 동적 데이터는 추출에 한계가 있습니다.
- 크기가 변경되는 필드는 정확히 처리되지 않습니다.
- 스캔 품질이 낮은 문서는 인식률이 떨어집니다.
영역 OCR에 대해 더 자세히 알고 싶다면 영역 OCR이란?을 참고하세요.
문서마다 필드 위치가 계속 변경되나요?
"테이블 행", "테이블 라인", "총액" 또는 "소계" 등의 필드는 테이블에 포함된 항목의 수에 따라 위치가 달라집니다. 송장이나 발주서(PO)마다 동일한 위치에 있지 않을 수 있습니다.
필드가 수평 또는 수직으로 이동하거나 크기가 가변적이라면, 영역 OCR로는 정확한 데이터 추출이 어렵습니다. 영역 OCR은 "영역"의 위치가 항상 동일해야 제대로 작동합니다.
계속 변하는 필드 위치에서 정확히 데이터를 추출하려면?
예를 들어, 월별 재무 데이터는 비용, 수익, 이익 필드 위치가 매번 달라질 수 있습니다. 빠르게 재무 감사 작업이 필요하다면 영역 OCR만으로는 한계가 드러납니다.
AI OCR이 동적 OCR보다 나은가요?
글로벌 OCR 시장은 2023-2030년 연평균 14.8% 성장이 예상됩니다.
AI OCR은 머신러닝과 컴퓨터 비전 알고리즘을 이용하여 데이터 필드의 위치를 분석하는 1세대 OCR입니다. 신경망 기술을 통해 데이터 추출 필드를 감지합니다.
AI OCR의 한계
AI OCR이 데이터 추출 및 분석을 크게 향상시켰지만, 몇 가지 분명한 한계점도 있습니다.
수작업 검토 필요
AI OCR 소프트웨어를 도입하면 수작업 데이터 검토 과정이 반드시 필요합니다. AI는 확률적으로 결과를 제공하기 때문에 항상 결과를 확인해야 하며, 처리 속도도 느릴 수 있습니다.
학습 필요
AI 모델은 사용 전 반드시 학습 과정을 거쳐야 하며, 학습에는 시간이 소요됩니다. 데이터가 많을수록 AI 모델의 학습 시간도 길어질 수 있습니다(최대 4시간 등).
블랙박스 구조
AI 모델의 오류 발생 시 사용자는 모델을 재학습시키는 것 외에 할 수 있는 일이 거의 없습니다. 세부적 제어나 직접적인 오류 수정이 어렵습니다.
AI OCR은 고가임
AI 기반 OCR 솔루션은 일반적으로 높은 비용이 들며, 대규모 조직에 적합합니다. 소규모 기업이나 개인 사용자 입장에서는 부담이 될 수 있습니다.
영역 OCR vs AI OCR vs 동적 OCR
각 주요 OCR 엔진의 차이점을 표로 정리했습니다:
AI OCR | 영역 OCR | 동적 OCR | |
---|---|---|---|
설정 | 학습 필요 | 즉시 사용 | 즉시 사용 |
콘텐츠 전반 파싱 가능 | 아니오(일부 언어, 일부 업종 한정) | 아니오(변동/이동 필드는 불가) | 예 |
즉시 데이터 파싱 | 아니오(모델 학습 필요) | 예(수초 이내 완료) | 예(수초 이내 완료) |
수동 검토 필요 | 예 | 아니오 | 아니오 |
유연성 | 아니오(블랙박스, 재학습 필요) | 예(문제 해결/조정 용이) | 예(문제 해결/조정 용이) |
모든 문서 레이아웃 지원 | 예 | 예 | 아니오 |
동적 OCR의 등장!
동적 OCR은 어떻게 작동하나요?
동적 OCR은 사용하기 매우 간단하도록 설계되었습니다. 이 엔진은 "라벨"이라는 개념을 사용합니다.
라벨(Label)이란?
문서 내에서 값이 이동해도 특정 텍스트(텍스트 플레이스홀더)와의 상대적 위치는 변하지 않습니다. 예를 들어, "$1,600.00" 값은 "Subtotal" 텍스트 오른쪽에 항상 위치하게 됩니다.
라벨은 데이터 필드의 위치를 지정하는 기준점입니다. Parseur는 먼저 라벨을 찾고, 라벨을 기준으로 필드 위치를 식별해 데이터를 추출합니다.
소계 필드는 라벨을 기준으로 상대적 위치에 있습니다.
동적 OCR 설정은 간단한 3단계!
1단계: 라벨 생성
데이터 필드 위에 박스를 그리고, "새 라벨 만들기"를 클릭해 기준이 되는 라벨을 만듭니다.
2단계: 라벨과 연계된 필드 생성
추출하고 싶은 필드에 박스를 그리고 해당 필드가 특정 라벨과 연동됨을 Parseur에 지정합니다.
3단계: 두 번째 라벨(선택 사항) 생성
필요하다면 데이터 필드의 끝을 알려주는 종료 라벨을 하나 더 추가할 수 있습니다. Parseur는 종료 라벨을 기준으로 필드 범위를 파악합니다.
위 단계대로 모든 필드에 대해 반복해 동적 OCR 템플릿을 완성하세요.
동적 OCR의 장점
동적 OCR은 필드 이동 및 크기 변화에 탁월하게 대응하며, 여러 종류의 OCR 대비 다양한 이점을 제공합니다.
높은 데이터 정확도
문서 내 필드 위치와 크기가 변해도 정확하게 데이터를 추출할 수 있습니다. 이동하는 필드도 놓치지 않습니다.
빠르고 쉬운 설정
복잡한 설정이 전혀 필요 없습니다. Parseur 신규 사용자는 동적 OCR이 이미 활성화된 상태로 시작할 수 있습니다.
광범위한 언어 지원
이 엔진은 60개 이상의 언어로 작성된 PDF 및 기타 문서를 신속하게 파싱할 수 있습니다.
빠른 처리 속도
AI 모델은 학습 시간이 필요하지만, 동적 OCR은 어떤 PDF든 몇 초 내에 빠르게 처리할 수 있습니다.
Parseur에서 동적 OCR 활용하기
Parseur는 첨단 OCR 기술로 문서에서 데이터를 자동으로 추출하는 강력한 PDF 파서입니다. 별도의 파싱 규칙이나 개발 작업 없이도 사용할 수 있어 현업의 데이터 처리 시간을 크게 단축시킵니다.
2024년 6월 Parseur의 벤치마크 결과, Parseur 사용 고객은 매월 평균 150시간의 수동 데이터 입력 시간과 약 $6,413의 비용을 절감했습니다. - Parseur 통계, 2024년 6월
자주 묻는 질문
동적 OCR에 대해 자주 묻는 질문과 답변을 정리했습니다.
-
동적 OCR의 일반적인 사용 사례는 무엇인가요?
-
OCR 엔진은 모든 산업에서 사용할 수 있지만, 저희가 선호하는 몇 가지 예시는 다음과 같습니다:
- 송장 처리
- 선하증권
- PDF 테이블 추출
- PDF에서 엑셀로 데이터 추출
-
동적 OCR을 다른 애플리케이션과 통합할 수 있나요?
-
예! Parseur는 Zapier, Make, Power Automate와 네이티브 통합을 제공합니다. OCR 엔진으로 추출한 데이터를 다운로드하거나, 어떤 애플리케이션(ERP, CRM, Webhooks)으로도 내보낼 수 있습니다.
-
동적 OCR은 비용이 많이 드나요?
-
모든 기능을 사용할 수 있는 무료 플랜이 있습니다. 저희 요금제는 "성장에 따라 지불(pay-as-you-grow)" 방식이며, 평균적으로 다른 PDF 파서보다 4배 저렴합니다.
-
동적 OCR로 테이블에서 데이터를 추출할 수 있나요?
-
네! 동적 OCR 기술을 통해 테이블 데이터 추출이 가능하며, Parseur에 테이블의 시작과 끝도 지정해줄 수 있습니다.
-
동적 OCR의 단점은 무엇인가요?
-
새로운 레이아웃을 자동으로 파싱할 수 없습니다. 문서 양식이나 포맷이 새로워질 경우 새 템플릿을 만들어야 합니다.
-
동적 OCR로 비영어권 문서도 지원하나요?
-
네! 동적 OCR은 이미 60개 이상의 언어로 학습되었습니다. 스페인어, 프랑스어, 일본어, 히브리어, 아랍어, 힌디어 등 다양한 언어가 지원됩니다. 이 외에 160개 이상의 언어에 실험적 지원을 제공합니다.
마지막 업데이트