包含内容
视觉 AI 提取
视觉模型像人眼一样把整页当作图像来读,能理解文档的版式结构和视觉线索,从复杂排版中精准抓取所需字段,无需模板。
- 适用于图文 PDF、扫描件和复杂表单
- 识别手写、勾选框、印章和版式提示
- 用一句英文说明即可,无需建模板
文本 AI 提取
文档先被转成纯文本,无文本层时自动套用 OCR。AI 直接读取文本内容,忽略排版与配图,专注于语义级别的字段提取。
- 适合邮件、文本型 PDF 和纯文字文档
- 适合版式不重要、只看内容的场景
- 配置简单,一句英文指令即可
基于模板的提取
同一个邮箱内可挂多份模板,Parseur 会为每份文档自动匹配最合适的模板。不依赖 AI,结果稳定可复现。
- 适合标准表单和机器生成的邮件
- 版式固定时,提取结果可靠且精准
- 自带可视化模板编辑器,支持多版式
表格和明细行提取
表格中的每一行单独输出为一条记录,而非塞进一个字段。三种引擎都支持表格识别,电子表格也能自动还原结构。
- 行数不固定的表格也能稳定处理
- 支持跨页长表自动拼接
- AI 可将复杂多行表格逐列拆分
扫描件与图片 OCR
光学字符识别可从扫描件、手机照片和纯图片 PDF 中提取文字。文档没有文本层时,为文本 AI 与模板引擎提供可用文本。
- 支持扫描件、照片和纯图片 PDF
- 涵盖 200 多种语言,识别手写
- 模板引擎可按区域 OCR,适配多版式
文档预处理
解析前的精细清理是高准确率的基础。Parseur 自 2016 年起累计处理逾 1 亿份文档,预处理流程经过持续打磨。
- 校正倾斜、修复破损页面,必要时重做 OCR
- 修复损坏的 PDF、乱码邮件和异常 HTML
- 智能识别各地区的日期和数字格式
文档解析的工作原理
刚刚发生了什么
文档自动接收
您的文档通过上传、邮件、API 或已连接的存储自动进入 Parseur。
预处理
所有文档进入流程前都会被清理一次。Parseur 自动校正页面角度、修正扫描歪斜,并修复乱码和排版异常。
OCR
对扫描件、照片和纯图片 PDF 自动执行 OCR 提取文字。原文档自带文本层时,该步骤自动跳过。
选择解析引擎
Parseur 为每份文档自动挑选最合适的解析方式。命中模板时优先用模板,否则图文页面交给视觉 AI,纯文字交给文本 AI。
提取
解析引擎按邮箱预设的字段结构抽取数据,并对每个字段做统一的格式校验和规范化处理。
接下来会发生什么
数据规范化与验证
提取出来的字段会被校验、格式化,统一成可直接进入下游系统的结构。