用于解析PDF文档的OCR引擎

Portrait of Sylvain Josserand
作者 Sylvain Josserand
3 分钟阅读
最后更新于

嗨,我是 Sylvain,在 Parseur 负责软件开发。 我们刚刚发布了至今为止最大的新功能:一个全新系统,用于可视化解析 PDF 文件。

新功能:可视化提取 PDF 数据

通过 OCR 解析 PDF 文档一直是我们功能投票页面上呼声最高的请求之一。

更高复杂文档的处理能力

过去,我们会将 PDF 文档转换为纯文本,尽量保留页面的原始布局。 这种方法对于结构简单的文档效果不错(因此我们会继续保留文本引擎与新引擎并行使用)。

但这让我们的传统基于文本的引擎,在提取结构复杂 PDF 文档数据时变得十分困难。

为此,我们开发了一套全新的解析引擎,即 OCR(光学字符识别)。 OCR 模板编辑器允许您通过在需要提取的文本区域绘制框,快速创建模板。 您还可以设置标签,作为文档中的锚点,帮助引擎精准定位页面中的字段。

更多详细操作指南请参阅我们支持页面:创建您的第一个 OCR 模板

可选字段支持终于到来!

新引擎允许您直接定义可选字段,并且对版面细微变动更为适应。 您也可以更快速构建模板更灵活地调整模板,无需从头开始,每个模板可以绑定多个样本文档。这样部分文档中出现的特定字段也能被有效提取。

完全向后兼容

所有现有功能,如表格、元数据、后处理和静态字段,都可以与新引擎无缝协作。 输出数据格式和 webhook 保持一致,无需做任何改动。

该新引擎可与现有引擎并行使用,您甚至可以在同一邮箱中混合搭配文本与 OCR 模板,灵活获取最佳效果。

如果您的邮箱内同时存在基于文本和基于 OCR 的模板,将优先匹配提取字段最多的模板。

按页计费

现在,每成功解析一页文档,将计入一个积分。 而对于非分页文档(如长邮件或电子表格),只要成功处理,无论内容多少,都只计一个积分,计费方式与之前保持一致。

下一步:还有哪些新变化?

在测试阶段结束并新 OCR 引擎向所有用户开放后,我们计划继续扩展其支持范围,覆盖所有 HTML 文档类型,包括邮件和网页内容。

公共上线进展快报

2022年4月

  • 为表格字段增加了自定义页眉和页脚边距设置
  • 增加了按照每 X 页拆分 PDF 的功能
  • 新增表格字段合并行选项
  • 模板编辑器与调试器中提升了字段级错误提示
  • 提升了解析引擎准确率
  • 优化了模板编辑器的用户体验
  • 修复了我们的先行用户反馈的诸多问题

2022年5月

  • 邀请更多用户加入 Beta 测试计划
  • 支持模板样本管理(可添加描述、移除样本)
  • 模板编辑器新增可选字段高亮,标签与相关字段联动显示
  • 若 PDF 文件有编码文本层,将优先使用该层内容而非 OCR,进一步提升提取准确率
  • Beta 测试计划入口上线至账户页面,用户可自主申请加入
  • 修复了客户反馈问题

2022年6月

  • 距离全面上线仅一步之遥,不少客户已在日常使用新引擎处理他们的 PDF 文件
  • 持续邀请更多用户加入 Beta 计划
  • 增强了行检测和多行字段提取能力
  • 显著提升了表格行与单元格检测精度
  • 新增多份帮助文档:创建 OCR 模板通过标签定位字段提取 PDF 表格数据
  • 再次修复了大家反馈的 Bug(感谢所有参与测试的用户!)

2022年7月:全面上线 🎉

几个月的开发以及数周的测试之后,OCR 引擎终于正式上线!这标志着 Parseur 升级为第 4 个主要版本,也是我们迄今为止最大型的功能更新。

  • 所有用户现已可直接使用 OCR 解析引擎
  • 持续修复 Bug,并通过多项易用性优化全面提升用户体验
  • 发布 13 分钟详细教程视频,说明如何利用 OCR 引擎高效从 PDF 提取文本:

最后更新于

基于AI的数据提取软件。
立即开始使用Parseur。

自动提取电子邮件、PDF和电子表格中的文本。
节省数百小时的手动工作。
体验AI赋能的工作自动化。

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot