嗨，我是 Sylvain，在 Parseur 负责软件开发。我们刚刚发布了至今为止最大的新功能：一个全新系统，用于可视化解析 PDF 文件。

新功能：可视化提取 PDF 数据

通过 OCR 解析 PDF 文档一直是我们功能投票页面上呼声最高的请求之一。

更高复杂文档的处理能力

过去，我们会将 PDF 文档转换为纯文本，尽量保留页面的原始布局。这种方法对于结构简单的文档效果不错（因此我们会继续保留文本引擎与新引擎并行使用）。

但这让我们的传统基于文本的引擎，在提取结构复杂 PDF 文档数据时变得十分困难。

为此，我们开发了一套全新的解析引擎，即 OCR（光学字符识别）。 OCR 模板编辑器允许您通过在需要提取的文本区域绘制框，快速创建模板。您还可以设置标签，作为文档中的锚点，帮助引擎精准定位页面中的字段。

更多详细操作指南请参阅我们支持页面：创建您的第一个 OCR 模板。

可选字段支持终于到来！

新引擎允许您直接定义可选字段，并且对版面细微变动更为适应。您也可以更快速构建模板，更灵活地调整模板，无需从头开始，每个模板可以绑定多个样本文档。这样部分文档中出现的特定字段也能被有效提取。

完全向后兼容

所有现有功能，如表格、元数据、后处理和静态字段，都可以与新引擎无缝协作。输出数据格式和 webhook 保持一致，无需做任何改动。

该新引擎可与现有引擎并行使用，您甚至可以在同一邮箱中混合搭配文本与 OCR 模板，灵活获取最佳效果。

如果您的邮箱内同时存在基于文本和基于 OCR 的模板，将优先匹配提取字段最多的模板。

按页计费

现在，每成功解析一页文档，将计入一个积分。而对于非分页文档（如长邮件或电子表格），只要成功处理，无论内容多少，都只计一个积分，计费方式与之前保持一致。

下一步：还有哪些新变化？

在测试阶段结束并新 OCR 引擎向所有用户开放后，我们计划继续扩展其支持范围，覆盖所有 HTML 文档类型，包括邮件和网页内容。

公共上线进展快报

2022年4月

为表格字段增加了自定义页眉和页脚边距设置
增加了按照每 X 页拆分 PDF 的功能
新增表格字段合并行选项
模板编辑器与调试器中提升了字段级错误提示
提升了解析引擎准确率
优化了模板编辑器的用户体验
修复了我们的先行用户反馈的诸多问题

2022年5月

邀请更多用户加入 Beta 测试计划
支持模板样本管理（可添加描述、移除样本）
模板编辑器新增可选字段高亮，标签与相关字段联动显示
若 PDF 文件有编码文本层，将优先使用该层内容而非 OCR，进一步提升提取准确率
Beta 测试计划入口上线至账户页面，用户可自主申请加入
修复了客户反馈问题

2022年6月

距离全面上线仅一步之遥，不少客户已在日常使用新引擎处理他们的 PDF 文件
持续邀请更多用户加入 Beta 计划
增强了行检测和多行字段提取能力
显著提升了表格行与单元格检测精度
新增多份帮助文档：创建 OCR 模板、通过标签定位字段、提取 PDF 表格数据
再次修复了大家反馈的 Bug（感谢所有参与测试的用户！）

2022年7月：全面上线 🎉

几个月的开发以及数周的测试之后，OCR 引擎终于正式上线！这标志着 Parseur 升级为第 4 个主要版本，也是我们迄今为止最大型的功能更新。

所有用户现已可直接使用 OCR 解析引擎
持续修复 Bug，并通过多项易用性优化全面提升用户体验
发布 13 分钟详细教程视频，说明如何利用 OCR 引擎高效从 PDF 提取文本：

最后更新于 2025年5月7日

用于解析PDF文档的OCR引擎

新功能：可视化提取 PDF 数据

更高复杂文档的处理能力

可选字段支持终于到来！

完全向后兼容

按页计费

下一步：还有哪些新变化？

公共上线进展快报

2022年4月

2022年5月

2022年6月

2022年7月：全面上线 🎉

告别手动录入，
就从今天起。

用于解析PDF文档的OCR引擎

新功能：可视化提取 PDF 数据

更高复杂文档的处理能力

可选字段支持终于到来！

完全向后兼容

按页计费

下一步：还有哪些新变化？

公共上线进展快报

2022年4月

2022年5月

2022年6月

2022年7月：全面上线 🎉

告别手动录入，就从今天起。

告别手动录入，
就从今天起。