マルチエンジンによるドキュメント解析
あらゆる書類に最適な解析エンジンを
レイアウト重視ならVision AI、テキスト中心ならText AI、定型書式ならテンプレート。3つのエンジンが同じメールボックスで連携し、書類ごとに最適な方法を自動で選びます。
含まれる内容
Vision AIによる抽出
Visionモデルは書類を画像として丸ごと読み取り、レイアウトや視覚的な文脈を人間の目線で理解します。複雑なPDFやスキャン書類からでも、必要なデータを正確に取り出せます。
- レイアウトが複雑なPDF、スキャン、帳票に最適
- 手書き、チェックボックス、スタンプ、配置依存の項目も抽出
- 英語で指示を書くだけ。テンプレートは不要
Text AIによる抽出
書類からテキストだけを取り出し、AIがその文章を解析します。レイアウトや画像情報は使わず、テキストの内容そのものから必要な値を取り出す方式です。
- メールやプレーンなPDFなどテキスト中心の書類に最適
- レイアウトに情報価値がないケースで有効
- 英語で指示を書くだけ。テンプレートは不要
テンプレートによる抽出
必要な数だけテンプレートを用意でき、Parseurが書類ごとに最適なテンプレートを自動で選択します。同じレイアウトには常に同じ出力。AIは使いません。
- 定型フォームや自動配信メールなどに最適
- レイアウトが完全に一致する書類で最も信頼性が高い方式
- テンプレートはビジュアルエディタで直感的に設定
テーブル・明細行の抽出
表の各行をそれぞれ独立したデータレコードとして取り出します。1つのフィールドにまとめず、行ごとに分けて出力。全エンジンで利用でき、スプレッドシートは自動で解析されます。
- 書類ごとに行数が変わっても柔軟に対応
- 複数ページにまたがる表も最後まで抽出
- AIエンジンなら複雑な明細も列ごとに分割
スキャン・画像書類向けOCR
OCR(光学文字認識)が、スキャン、スマホ撮影、画像PDFなどテキスト層のない書類からテキストを取り出します。取り出したテキストはText AIやテンプレートエンジンが解析します。
- スキャン、スマホ写真、画像PDFまで幅広く対応
- 手書きを含む200以上の言語に対応する多言語OCR
- 固定・可変レイアウトの両方に効くゾーンOCRと動的OCR
書類の事前処理
Parseurは抽出の前に受信書類を自動でクリーンアップ・修復します。1億件以上の実書類で鍛え上げられた処理が、抽出精度を底上げします。
- 傾いたスキャンを補正し、文字化けは再OCRで復元
- 破損したPDF、壊れた文字コード、不正なHTMLも自動修復
- 各国独自フォーマットの日付や数値も自動で判別
ドキュメント解析の仕組み
直前のステップ
ドキュメントの取り込み
書類はアップロード、もしくはメール、API、ストレージ連携経由で自動的に受信されます。
事前処理
書類ごとに自動でクリーンアップ。ページの傾きを補正し、文字化けや崩れた文字列も修復します。
OCR
スキャン、写真、画像PDFはOCRでテキスト化。すでにテキスト層がある書類はこの工程をスキップします。
最適エンジンの選択
Parseurが書類の中身を見て最適なエンジンを自動で選びます。一致するテンプレートがあればそれを優先、なければ画像中心はVision AI、テキスト中心はText AIが処理します。
抽出
選ばれたエンジンが定義済みスキーマに沿って構造化フィールドを抽出。続いて正規化フェーズでフォーマット統一と検証を行います。
次のステップ
データの正規化と検証
抽出されたフィールドは検証・整形され、後続のワークフローでそのまま使える形になります。