こんにちは、Parseur開発チームのSylvainです。私たちはこれまでで最大の機能アップデートをリリースしました。PDFファイルを視覚的に解析できる新しいシステムが誕生しました。

新機能：PDFから視覚的にデータを抽出

OCRを活用してPDFドキュメントを解析する機能は、機能リクエストページで最も多く要望をいただいていたものです。

複雑なドキュメントにも対応、精度アップ

これまではPDFドキュメントをテキストに変換し、できるだけページレイアウトを保つ方法で解析していました。この方法はシンプルなドキュメントには非常に効果的であり、そのため従来のテキストベースエンジンも継続して利用可能です。

一方で、複雑なレイアウトのPDFでは、これまでのテキストベースエンジンで信頼性高くデータを抽出することが難しいケースがありました。

そこで、新しい「OCR（光学文字認識）」解析エンジンを導入しました。 OCRテンプレートエディタでは、抽出したいテキスト部分の周囲にボックスを描くだけでテンプレートを作成できます。さらに、ドキュメント内に目印となるラベルを定義することで、ページ上のフィールド位置を柔軟かつ確実に特定できます。

詳しくはサポートページをご覧ください：初めてのOCRテンプレートを作成する。

待望のオプションフィールド

新しいエンジンではオプションフィールドを定義できるようになり、ドキュメントのレイアウトや内容に違いがあっても柔軟に対応できます。また、テンプレート作成のスピードが向上し、最初から作り直さずに簡単な調整が可能になりました。これは1つのテンプレートに複数サンプルを紐付けて管理できるためです。それぞれのドキュメントで現れるフィールド/現れないフィールドも1つのテンプレートで設定できます。

後方互換性も万全

従来のすべての機能（テーブル抽出、メタデータ抽出、ポストプロセス処理、静的フィールドなど）は新しいエンジンでもそのままご利用いただけます。出力データのフォーマットも変わらず、Webhookなどもこれまで通り動作します。

さらに、この新エンジンは従来のエンジンと併用可能です。同一メールボックス内で両方のテンプレートを使い分けでき、それぞれのメリットを活用できます。

メールボックス内にテキストベースとOCR両方のテンプレートが存在する場合、自動的に最も多くのフィールドを取得できるテンプレートが優先適用されます。

1ページ単位のクレジット消費

1ページごとに成功裏に解析されるたび、1クレジットが消費されます。長文メールやスプレッドシートなど1ページではない場合は、従来通りドキュメント単位で1クレジット換算となります（ページ数に依存しません）。

今後の対応予定

ベータフェーズが終了し新OCRエンジンが全ユーザーへ展開されたのち、今後はメールやWebページなどHTMLドキュメントにも対応を拡充していきます。

パブリックリリースへ向けた進捗レポート

2022年4月

テーブルフィールドでカスタムページヘッダー＆フッターのマージン設定に対応
PDFを任意ページ数ごとに分割するオプションを追加
テーブルフィールドに行マージオプションを追加
テンプレートエディタ＆デバッガーのフィールド別エラー表示メッセージを改善
解析エンジンの精度を向上
テンプレートエディタのUX（操作性）を改善
ベータテスターからのバグ報告に対応

2022年5月

さらに多くのユーザーがベータテストプログラムへ参加
テンプレートサンプルの管理機能を追加（説明追加、サンプル削除対応）
テンプレートエディタでオプションフィールド・ラベルのハイライト表示を改善
PDFにテキストレイヤーが存在する場合はOCRを使わずテキスト抽出し精度を向上
アカウントページから自己参加によるベータ申し込みを受付
顧客からのバグ報告を修正

2022年6月

パブリックリリース間近。多くのお客様が新エンジンで日々PDFを解析中！
さらにユーザーをベータテストプログラムに追加
複数行フィールドの検出・抽出精度を改善
テーブルの行・セルの検出および抽出精度をさらに改善
サポートドキュメントを追加：
さらにお客様からのバグ報告を修正（ご協力ありがとうございます！）

2022年7月：一般公開！

数ヶ月の開発と数週間のテストを経て、OCRエンジンがすべてのユーザーに一般公開されました！Parseur史上最大の機能強化、バージョン4のリリースです。

OCR解析エンジンをすべてのユーザーに向けて有効化
使いやすさ向上や細かな機能改善、不具合修正によるユーザー体験の改善
新OCRエンジンによるPDFからテキスト抽出方法を紹介した13分のチュートリアル動画を公開：

共有:

Sylvain Josserand LinkedIn

Co-Founder and CTO at Parseur

SylvainはParseurの共同創業者兼CTOとして、プラットフォームのアーキテクチャとグローバルインフラ運用を統括しています。 20年以上の経験を持つ熟練のソフトウェアエンジニア＆Pythonエキスパートであり、 Parseurの堅牢なパースエンジンを設計・開発し、Parseurサーバが常時円滑に稼働するよう徹底しています。複雑なシステムをシンプルにすることに情熱を持ち、ビジネスの自動化・効率化を誰でも簡単にできる信頼性・スケーラビリティの高いソリューションを提供するのが得意です。

最終更新日 2025年4月30日

PDFドキュメントを解析するためのOCRエンジン

新機能：PDFから視覚的にデータを抽出

複雑なドキュメントにも対応、精度アップ

待望のオプションフィールド

後方互換性も万全

1ページ単位のクレジット消費

今後の対応予定

パブリックリリースへ向けた進捗レポート

2022年4月

2022年5月

2022年6月

2022年7月：一般公開！

ドキュメントデータ抽出、
そろそろ自動化しませんか？

PDFドキュメントを解析するためのOCRエンジン

新機能：PDFから視覚的にデータを抽出

複雑なドキュメントにも対応、精度アップ

待望のオプションフィールド

後方互換性も万全

1ページ単位のクレジット消費

今後の対応予定

パブリックリリースへ向けた進捗レポート

2022年4月

2022年5月

2022年6月

2022年7月：一般公開！

ドキュメントデータ抽出、そろそろ自動化しませんか？

ドキュメントデータ抽出、
そろそろ自動化しませんか？