OCR是数据提取的基础
光学字符识别技术(OCR)让计算机能够从文档中自动识别和提取文本。高精度的OCR引擎是任何可靠数据提取流程的基础。Parseur的OCR引擎采用计算机视觉和自然语言处理(NLP),在业内最大的数据集上训练而成。
面向所有人的OCR
我们的引擎让你可以识别所有类型文档中的文本。
-
基于文本的PDF
- 识别PDF自带文本层的内容(如有)。这类PDF也被称为可搜索型PDF或PDF/A,在各类场景中广泛应用。
-
扫描PDF
- 对于仅包含图片、没有文本层的扫描PDF,Parseur利用计算机视觉技术可以高精度识别和提取文本内容。
-
邮件与文本文档
- 可100%准确识别邮件(包括含图片与链接的富文本邮件)及其他纯文本文件中的内容。
-
表格及更多
- Parseur还可识别表格(Excel、CSV)、Word文档、网页等多种格式的文本。查看完整的 支持的文件类型列表。
支持大多数语言
大规模的训练数据集是高精度OCR引擎的基础。我们的OCR引擎持续通过全球多语言数据集进行训练且规模不断扩大。-
支持60多种语言
- 我们的OCR引擎已在60多种语言上经过大量训练,包括英语、西班牙语、法语、德语、荷兰语、俄语、日语、韩语、中文、希伯来语、阿拉伯语、印地语等。与此同时,还对160多种语言提供实验性支持。
-
手写识别
- Parseur可以识别拉丁、日语和韩语字母的手写内容。同时对中文、希腊文、西里尔文和越南文等其他手写字母表也提供实验性支持。