OCR是数据提取的基础
光学字符识别(OCR)是一种能让计算机自动识别与提取文档文本的技术。高精度的OCR软件是任何高效数据提取流程的核心。Parseur的OCR引擎融合了先进的计算机视觉与自然语言处理(NLP)技术,在业内最大的数据集上完成训练。
面向所有人的OCR
Parseur的OCR软件能够智能识别各类文档中的文字内容。
-
基于文本的PDF文件
- 能直接读取PDF的文本层(如存在)。这类PDF也称为可搜索型PDF或PDF/A。
-
扫描PDF文件
- 针对仅含图片、无文本层的扫描PDF文档,OCR软件可通过先进的计算机视觉技术准确提取文本信息。
-
邮件与文本文档
- 支持从各类邮件(包括内含图片及超链接的富文本邮件)和其它文本文件中进行高精度内容识别,准确率可达100%。
-
电子表格及更多
- Parseur同样能处理电子表格(如Excel、CSV)、Word文档、网页等多种文档格式。查看完整的 支持的文件类型列表。
支持多国语言
大规模多语种训练数据集是高精度OCR软件的关键。我们的OCR引擎不断从全球范围内的庞大多语种文档中学习提升识别准确率。-
支持60多种语言
- 我们的OCR软件已经可以精准识别60多种语言,包括英语、西班牙语、法语、德语、荷兰语、俄语、日语、韩语、中文、希伯来语、阿拉伯语、印地语等,还对160多种处于测试阶段的语言提供实验性支持。
-
手写体识别
- Parseur的OCR还能识别拉丁字母、日文、韩文等常见文字的手写体,并对中文、希腊文、西里尔文、越南文等其它字母表支持实验性手写识别。