何时需要动态OCR?
当您的文档布局结构基本一致,但各字段的位置或大小会随内容变动时,就需要使用动态OCR。
字段位置可变
通常,表格或可选项是导致文档布局或字段发生移动的主要因素。
-
表格字段之后
- 由于表格行数可变,下方整体布局往往会发生位移。
-
可选字段之后
- 例如地址信息中的“地址2”字段,或物品的自定义选项(如尺寸或颜色),这些内容的有无都会影响其后所有字段的位置。
字段大小可变
多数情况下,字段被限定在文档的固定区域。但当出现多行评论或可扩展表格字段时,字段尺寸就会发生变化。
-
表格行数可变
- 表格行数变化会直接影响表格字段的高度。此时,您需要告知数据提取工具表格字段的截取终止点。
-
行数不固定的文本
- 捕捉自由文本内容(如备注、评论)的字段,其行数也会随内容变化。因此,数据提取工具需能够识别该字段的终止位置。
动态OCR是如何工作的?
动态OCR采用“标签”概念。标签即文档中的锚文本,用于帮助定位目标字段。与区域OCR必须在文档固定位置查找字段不同,Parseur会先搜索标签,然后根据标签自动定位相关字段,大幅提升数据提取的灵活性和准确性。
-
1
创建标签
- 在希望用作锚点的文本上画框,选择“创建标签”即可。
-
2
新建字段并设为依赖标签
- 在需要提取的数据区域画框,命名字段,然后选择已创建的标签,表示该字段位置是相对于该标签确定的,不再固定。
-
3
创建终止标签(可选)
- 若字段行数或高度可变,可以在末尾设置终止标签。Parseur会以第一个标签为起点,终止标签为终点,自动提取完整字段内容。
-
重复设置其他字段
- 依次为所有目标字段设置标签。多个字段可复用同一个标签。标签和字段均可设置为可选或必需,灵活适用各种文档类型。
最智能的文档处理软件
动态OCR与其他高级提取功能共同赋能Parseur,助您灵活提取并自动结构化各类文档数据。