こんにちは、Parseur開発チームのSylvainです。 私たちはこれまでで最大の機能アップデートをリリースしました。PDFファイルを視覚的に解析できる新しいシステムが誕生しました。
新機能:PDFから視覚的にデータを抽出
OCRを活用してPDFドキュメントを解析する機能は、機能リクエストページで最も多く要望をいただいていたものです。
複雑なドキュメントにも対応、精度アップ
これまではPDFドキュメントをテキストに変換し、できるだけページレイアウトを保つ方法で解析していました。 この方法はシンプルなドキュメントには非常に効果的であり、そのため従来のテキストベースエンジンも継続して利用可能です。
一方で、複雑なレイアウトのPDFでは、これまでのテキストベースエンジンで信頼性高くデータを抽出することが難しいケースがありました。
そこで、新しい「OCR(光学文字認識)」解析エンジンを導入しました。 OCRテンプレートエディタでは、抽出したいテキスト部分の周囲にボックスを描くだけでテンプレートを作成できます。 さらに、ドキュメント内に目印となるラベルを定義することで、ページ上のフィールド位置を柔軟かつ確実に特定できます。
詳しくはサポートページをご覧ください: 初めてのOCRテンプレートを作成する。
待望のオプションフィールド
新しいエンジンではオプションフィールドを定義できるようになり、ドキュメントのレイアウトや内容に違いがあっても柔軟に対応できます。 また、テンプレート作成のスピードが向上し、最初から作り直さずに簡単な調整が可能になりました。 これは1つのテンプレートに複数サンプルを紐付けて管理できるためです。それぞれのドキュメントで現れるフィールド/現れないフィールドも1つのテンプレートで設定できます。
後方互換性も万全
従来のすべての機能(テーブル抽出、メタデータ抽出、ポストプロセス処理、静的フィールドなど)は新しいエンジンでもそのままご利用いただけます。 出力データのフォーマットも変わらず、Webhookなどもこれまで通り動作します。
さらに、この新エンジンは従来のエンジンと併用可能です。同一メールボックス内で両方のテンプレートを使い分けでき、それぞれのメリットを活用できます。
メールボックス内にテキストベースとOCR両方のテンプレートが存在する場合、自動的に最も多くのフィールドを取得できるテンプレートが優先適用されます。
1ページ単位のクレジット消費
1ページごとに成功裏に解析されるたび、1クレジットが消費されます。 長文メールやスプレッドシートなど1ページではない場合は、従来通りドキュメント単位で1クレジット換算となります(ページ数に依存しません)。
今後の対応予定
ベータフェーズが終了し新OCRエンジンが全ユーザーへ展開されたのち、今後はメールやWebページなどHTMLドキュメントにも対応を拡充していきます。
パブリックリリースへ向けた進捗レポート
2022年4月
- テーブルフィールドでカスタムページヘッダー&フッターのマージン設定に対応
- PDFを任意ページ数ごとに分割するオプションを追加
- テーブルフィールドに行マージオプションを追加
- テンプレートエディタ&デバッガーのフィールド別エラー表示メッセージを改善
- 解析エンジンの精度を向上
- テンプレートエディタのUX(操作性)を改善
- ベータテスターからのバグ報告に対応
2022年5月
- さらに多くのユーザーがベータテストプログラムへ参加
- テンプレートサンプルの管理機能を追加(説明追加、サンプル削除対応)
- テンプレートエディタでオプションフィールド・ラベルのハイライト表示を改善
- PDFにテキストレイヤーが存在する場合はOCRを使わずテキスト抽出し精度を向上
- アカウントページから自己参加によるベータ申し込みを受付
- 顧客からのバグ報告を修正
2022年6月
- パブリックリリース間近。多くのお客様が新エンジンで日々PDFを解析中!
- さらにユーザーをベータテストプログラムに追加
- 複数行フィールドの検出・抽出精度を改善
- テーブルの行・セルの検出および抽出精度をさらに改善
- サポートドキュメントを追加:
- さらにお客様からのバグ報告を修正(ご協力ありがとうございます!)
2022年7月:一般公開!
数ヶ月の開発と数週間のテストを経て、OCRエンジンがすべてのユーザーに一般公開されました!Parseur史上最大の機能強化、バージョン4のリリースです。
- OCR解析エンジンをすべてのユーザーに向けて有効化
- 使いやすさ向上や細かな機能改善、不具合修正によるユーザー体験の改善
- 新OCRエンジンによるPDFからテキスト抽出方法を紹介した13分のチュートリアル動画を公開:
最終更新日