嗨,我是 Sylvain,在 Parseur 负责软件开发。 我们刚刚发布了至今为止最大的新功能:一个全新系统,用于可视化解析 PDF 文件。
新功能:可视化提取 PDF 数据
通过 OCR 解析 PDF 文档一直是我们功能投票页面上呼声最高的请求之一。
更高复杂文档的处理能力
过去,我们会将 PDF 文档转换为纯文本,尽量保留页面的原始布局。 这种方法对于结构简单的文档效果不错(因此我们会继续保留文本引擎与新引擎并行使用)。
但这让我们的传统基于文本的引擎,在提取结构复杂 PDF 文档数据时变得十分困难。
为此,我们开发了一套全新的解析引擎,即 OCR(光学字符识别)。 OCR 模板编辑器允许您通过在需要提取的文本区域绘制框,快速创建模板。 您还可以设置标签,作为文档中的锚点,帮助引擎精准定位页面中的字段。
更多详细操作指南请参阅我们支持页面:创建您的第一个 OCR 模板。
可选字段支持终于到来!
新引擎允许您直接定义可选字段,并且对版面细微变动更为适应。 您也可以更快速构建模板,更灵活地调整模板,无需从头开始,每个模板可以绑定多个样本文档。这样部分文档中出现的特定字段也能被有效提取。
完全向后兼容
所有现有功能,如表格、元数据、后处理和静态字段,都可以与新引擎无缝协作。 输出数据格式和 webhook 保持一致,无需做任何改动。
该新引擎可与现有引擎并行使用,您甚至可以在同一邮箱中混合搭配文本与 OCR 模板,灵活获取最佳效果。
如果您的邮箱内同时存在基于文本和基于 OCR 的模板,将优先匹配提取字段最多的模板。
按页计费
现在,每成功解析一页文档,将计入一个积分。 而对于非分页文档(如长邮件或电子表格),只要成功处理,无论内容多少,都只计一个积分,计费方式与之前保持一致。
下一步:还有哪些新变化?
在测试阶段结束并新 OCR 引擎向所有用户开放后,我们计划继续扩展其支持范围,覆盖所有 HTML 文档类型,包括邮件和网页内容。
公共上线进展快报
2022年4月
- 为表格字段增加了自定义页眉和页脚边距设置
- 增加了按照每 X 页拆分 PDF 的功能
- 新增表格字段合并行选项
- 模板编辑器与调试器中提升了字段级错误提示
- 提升了解析引擎准确率
- 优化了模板编辑器的用户体验
- 修复了我们的先行用户反馈的诸多问题
2022年5月
- 邀请更多用户加入 Beta 测试计划
- 支持模板样本管理(可添加描述、移除样本)
- 模板编辑器新增可选字段高亮,标签与相关字段联动显示
- 若 PDF 文件有编码文本层,将优先使用该层内容而非 OCR,进一步提升提取准确率
- Beta 测试计划入口上线至账户页面,用户可自主申请加入
- 修复了客户反馈问题
2022年6月
- 距离全面上线仅一步之遥,不少客户已在日常使用新引擎处理他们的 PDF 文件
- 持续邀请更多用户加入 Beta 计划
- 增强了行检测和多行字段提取能力
- 显著提升了表格行与单元格检测精度
- 新增多份帮助文档:创建 OCR 模板、通过标签定位字段、提取 PDF 表格数据
- 再次修复了大家反馈的 Bug(感谢所有参与测试的用户!)
2022年7月:全面上线 🎉
几个月的开发以及数周的测试之后,OCR 引擎终于正式上线!这标志着 Parseur 升级为第 4 个主要版本,也是我们迄今为止最大型的功能更新。
- 所有用户现已可直接使用 OCR 解析引擎
- 持续修复 Bug,并通过多项易用性优化全面提升用户体验
- 发布 13 分钟详细教程视频,说明如何利用 OCR 引擎高效从 PDF 提取文本:
最后更新于