PDF 문서 파싱을 위한 OCR 엔진

Portrait of Sylvain Josserand
작성자 Sylvain Josserand Parseur 공동 창립자 및 CTO
0 분 소요
마지막 업데이트

안녕하세요, Parseur 소프트웨어 개발자 Sylvain입니다.
드디어 저희가 가장 기대했던 기능을 출시했습니다: PDF 파일을 시각적으로 파싱하는 새로운 시스템입니다.

신규: PDF에서 시각적으로 데이터 추출

OCR을 활용한 PDF 문서 파싱 기능은 feature upvote 페이지에서 가장 많이 요청된 기능 중 하나였습니다.

복잡한 문서에서도 더욱 안정적으로

기존에는 PDF 문서를 텍스트로 변환하여 최대한 원래의 페이지 레이아웃을 보존하고자 했습니다.
이 방식은 단순한 문서에서는 잘 동작했기 때문에(그래서 텍스트 엔진도 새 엔진과 함께 계속 사용할 수 있습니다),
그러나 복잡한 PDF의 경우 이전 텍스트 기반 엔진만으로는 원하는 데이터를 신뢰성 있게 추출하는 것이 특히 어려웠습니다.

그래서 새로운 OCR(광학 문자 인식) 기반 파싱 엔진을 도입했습니다.
이제 OCR 템플릿 에디터에서 원하는 텍스트를 박스로 지정해 템플릿을 만들 수 있습니다.
또한, 문서에 랜드마크 역할을 하는 레이블을 지정하여, 엔진이 필드 위치를 더욱 정확히 찾을 수 있습니다.

자세한 안내는 저희 지원 페이지에서 확인하실 수 있습니다:
첫 OCR 템플릿 만들기

드디어, 선택적 필드 지원!

새로운 엔진에서는 선택적 필드 정의가 가능하며, 문서 레이아웃에 변화가 생겨도 더 유연하게 대응합니다.
템플릿을 더 빠르게 만들 수 있고, 기존 템플릿을 쉽게 수정하여 재사용할 수 있습니다.
여러 샘플을 하나의 템플릿에 첨부할 수 있기 때문입니다.
이로써 일부 문서에만 나타나는 특정 필드도 유동적으로 설정할 수 있습니다.

완전한 이전 버전 호환성

테이블, 메타데이터, 후처리, 정적 필드 등 기존 엔진의 핵심 기능들이 모두 새 엔진에서도 그대로 지원됩니다.
출력 데이터 포맷도 동일하며, 웹훅(Webhook)도 변함없이 동작합니다.

이 새로운 엔진은 기존 엔진과 함께 사용할 수 있으며, 같은 메일함에서 두 엔진의 템플릿을 혼합해 적용할 수 있어 각각의 장점을 모두 누릴 수 있습니다.

메일함에 텍스트 기반 템플릿과 OCR 템플릿이 모두 존재할 경우, 필드가 더 많이 추출되는 템플릿이 우선 적용됩니다.

페이지별 크레딧 차감

이제 성공적으로 파싱된 각 페이지마다 1크레딧이 차감됩니다.
문서가 여러 페이지가 아닌 이메일이나 스프레드시트처럼 단일 콘텐츠로 구성되어 있으면, 성공적으로 처리된 경우 1건(크레딧)만 차감되며 문서의 길이에는 영향을 받지 않습니다.

앞으로의 계획

베타 기간이 종료되면, 새로운 OCR 엔진을 모든 사용자에게 정식으로 제공할 예정입니다.
이후에는 이메일, 웹페이지 등 HTML 문서 전체로 확장할 계획입니다.

정식 출시까지 실시간 진척 상황

2022년 4월

  • 테이블 필드를 위한 사용자 정의 페이지 머리글/꼬리글 여백 설정 추가
  • PDF를 X페이지마다 여러 문서로 분리하는 옵션 추가
  • 테이블 필드의 행 병합 옵션 추가
  • 템플릿 에디터 및 디버거에서 필드별 에러 메시지 개선
  • 파싱 엔진의 정확도 개선
  • 템플릿 에디터 UX 개선
  • 베타 테스터의 피드백으로 발견된 버그 수정

2022년 5월

  • 더 많은 유저가 베타 테스트에 참여
  • 템플릿 샘플 관리 기능(설명추가, 샘플삭제) 추가
  • 템플릿 에디터에서 필드 및 레이블 Hover 시 연동된 항목 강조 기능 개선
  • PDF에 내장된 텍스트 레이어가 존재할 경우 OCR 대신 이를 사용해 정확도 향상
  • 누구나 계정 페이지에서 직접 베타 프로그램에 참여할 수 있도록 오픈
  • 고객 피드백을 바탕으로 추가 버그 수정

2022년 6월

  • 정식 출시가 눈앞에 있습니다! 이미 여러 고객이 새 엔진으로 PDF를 파싱 중입니다.
  • 더 많은 유저의 베타 프로그램 참여
  • 여러 줄 필드의 라인 감지 및 추출 정확도 개선
  • 테이블 행과 셀 감지/추출 능력 강화
  • 추가 지원 문서 작성: OCR 템플릿 만들기, 레이블로 필드 위치 지정, PDF 테이블 추출
  • 고객 제보로 발견된 버그 추가 해결(감사합니다!)

2022년 7월: 정식 출시 🎉

수 개월간의 개발과 지속적인 테스트를 거쳐, OCR 엔진이 모든 사용자에게 정식 공개되었습니다!
이번 릴리지는 Parseur의 네 번째 버전이자 가장 대폭적인 기능 업데이트입니다.

  • 모든 사용자를 위해 OCR 파싱 엔진 활성화
  • 다양한 사용성 개선 및 버그 수정으로 전체 경험을 업그레이드했습니다
  • 새 OCR 엔진을 사용하여 PDF에서 텍스트를 추출하는 방법을 다룬 13분 분량의 튜토리얼 영상 제공:

마지막 업데이트

AI 기반 데이터 추출 소프트웨어.
오늘 바로 Parseur를 시작하세요.

이메일, PDF, 스프레드시트에서 텍스트 추출을 자동화하세요.
수백 시간의 반복 업무를 절감할 수 있습니다.
AI로 업무 자동화를 경험해 보세요.

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot