动态OCR:高级文档数据提取

动态OCR是我们用于从文档中提取数据点的最先进技术。它可以动态定位每份文档中位置或大小可变的字段。

何时需要动态OCR?

当您的文档布局结构基本一致,但各字段的位置或大小会随内容变动时,就需要使用动态OCR。

字段位置可变

通常,表格或可选项是导致文档布局或字段发生移动的主要因素。

表格字段之后

由于表格行数可变,下方整体布局往往会发生位移。

可选字段之后

例如地址信息中的“地址2”字段,或物品的自定义选项(如尺寸或颜色),这些内容的有无都会影响其后所有字段的位置。

字段大小可变

多数情况下,字段被限定在文档的固定区域。但当出现多行评论或可扩展表格字段时,字段尺寸就会发生变化。

表格行数可变

表格行数变化会直接影响表格字段的高度。此时,您需要告知数据提取工具表格字段的截取终止点。

行数不固定的文本

捕捉自由文本内容(如备注、评论)的字段,其行数也会随内容变化。因此,数据提取工具需能够识别该字段的终止位置。

动态OCR是如何工作的?

动态OCR采用“标签”概念。标签即文档中的锚文本,用于帮助定位目标字段。与区域OCR必须在文档固定位置查找字段不同,Parseur会先搜索标签,然后根据标签自动定位相关字段,大幅提升数据提取的灵活性和准确性。

1

创建标签

在希望用作锚点的文本上画框,选择“创建标签”即可。
2

新建字段并设为依赖标签

在需要提取的数据区域画框,命名字段,然后选择已创建的标签,表示该字段位置是相对于该标签确定的,不再固定。
3

创建终止标签(可选)

若字段行数或高度可变,可以在末尾设置终止标签。Parseur会以第一个标签为起点,终止标签为终点,自动提取完整字段内容。

重复设置其他字段

依次为所有目标字段设置标签。多个字段可复用同一个标签。标签和字段均可设置为可选或必需,灵活适用各种文档类型。

最智能的文档处理软件

动态OCR与其他高级提取功能共同赋能Parseur,助您灵活提取并自动结构化各类文档数据。

业界领先的OCR软件

Parseur拥有业内领先的OCR识别准确率,支持多国语言、手写体和各种复杂文档,识别速度高效。

强大的模板引擎

可针对不同文档格式创建多个模板,系统自动检测布局并完成高效数据提取。

区域OCR

区域OCR适用于版式固定的文档,从每份相同结构的文件的指定位置准确提取文本信息。

基于AI的数据提取软件。
立即开始使用Parseur。

自动提取电子邮件、PDF和电子表格中的文本。
节省数百小时的手动工作。
体验AI赋能的工作自动化。

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot