가장 정확한 OCR 소프트웨어
Parseur는 최첨단 AI와 기계 학습 기술을 사용하여 문서에서 텍스트를 최고의 정확도로 인식합니다. 당사의 엔진은 이미 금융, 보험, 부동산, 물류, 이커머스 등 다양한 산업에서 수백만 페이지를 처리하고 있습니다.
OCR은 데이터 추출의 기반입니다
광학 문자 인식(OCR)은 컴퓨터가 문서에서 텍스트를 인식하고 추출할 수 있도록 하는 핵심 기술입니다. 정확한 OCR 엔진은 신뢰할 수 있는 데이터 추출 프로세스의 토대입니다. Parseur의 OCR 엔진은 컴퓨터 비전과 자연어 처리(NLP) 기술을 결합하고, 업계 최대 규모의 데이터셋을 기반으로 한 AI 모델을 학습시켜 최고의 정확도를 자랑합니다.
모든 문서를 위한 OCR
당사의 엔진은 다양한 유형의 문서에서 텍스트를 식별합니다.
-
텍스트 기반 PDF
- 텍스트 정보가 포함된 PDF 파일(검색 가능한 PDF 또는 PDF/A 등)에서 텍스트 레이어를 인식합니다. 이러한 PDF는 널리 사용되고 있습니다.
-
스캔된 PDF
- 텍스트 레이어 없이 이미지로만 구성된 스캔된 PDF의 경우, Parseur는 컴퓨터 비전을 활용해 텍스트를 높은 정확도로 인식 및 추출합니다.
-
이메일 및 텍스트 문서
- 이메일(이미지 및 링크가 포함된 리치 텍스트 이메일 포함)과 각종 텍스트 문서에서 100% 정확도로 텍스트를 추출합니다.
-
스프레드시트 및 기타
- Parseur는 스프레드시트(Excel, CSV), 워드 문서, 웹페이지 등 다양한 형식의 문서에서도 텍스트를 인식할 수 있습니다. 지원되는 파일 형식 전체 목록 보기.
대부분의 언어를 이해합니다
방대한 학습 데이터셋이 정확한 OCR 엔진의 핵심입니다. 당사의 OCR 엔진은 세계 각국에서 수집한 대용량, 다양한 언어별 데이터셋으로 지속적으로 학습되고 있습니다.-
60개 이상 언어 지원
- 당사 OCR 엔진은 영어, 스페인어, 프랑스어, 독일어, 네덜란드어, 러시아어, 일본어, 한국어, 중국어, 히브리어, 아랍어, 힌디어 등 60개 이상의 언어를 인식하도록 폭넓게 학습되었습니다. 또한, 실험적으로 160개 이상의 추가 언어도 지원합니다.
-
필기체 인식
- Parseur는 라틴, 일본어, 한글 알파벳을 사용하는 필기체 텍스트를 인식할 수 있습니다. 또한 중국어, 그리스어, 키릴 문자, 베트남어 등 다양한 문자의 필기체도 실험적으로 지원합니다.
OCR을 넘어
OCR은 비구조화된 데이터를 문서에서 추출합니다. 이 데이터를 Parseur의 시각적 클릭&포인트 템플릿 에디터, 영역 OCR 및 동적 OCR 파이프라인으로 불러와 신뢰성 높은 구조화 데이터로 만들 수 있습니다.



