ダイナミックOCRとは?
ダイナミックOCRは、Parseurが開発した最新の高度なOCRエンジンです。AI OCRやゾーンOCRもデータ抽出に優れていますが、それぞれ独自の課題を持っています。そうしたデメリットを解消するために、ParseurはダイナミックOCRを導入し、データ抽出をよりスムーズに行えるようにしました。
ゾーンOCRの限界
ゾーンOCRは、ドキュメント内の特定の「ゾーン」からデータを抽出します。このOCRツールは、データフィールドが固定位置にある場合に最も効果を発揮します。ゾーンOCRの課題は以下の通りです:
- ドキュメントごとにフィールド位置が動的に変わる場合、データ抽出ができない
- サイズが可変なフィールドに対応できない
- スキャン品質の悪い文書を正確に識別できない
ゾーンOCRとは? もご覧ください
データフィールドが動的に動く場合も困っていませんか?
「テーブルの行」「明細行」「合計」や「小計」などのフィールドは、テーブル内の項目数によって必ず場所が変わります。請求書や発注書(PO)でもフィールド位置が固定されていません。
フィールドが水平方向や垂直方向に移動したり、サイズが変動したりする場合、ゾーンOCRでは正確なデータ取得ができません。なぜなら、ゾーンOCRは「ゾーン」が一定の位置にある時に最も効果を発揮するためです。
フィールド位置が毎回変わる場合、どうすれば正確にデータ抽出できる?
例えば財務データで考えてみましょう。毎月の財務諸表はコストや売上、利益等が異なるため、レイアウトが毎回変わります。そのような時、迅速な監査やデータ取得の必要がある場合には、ゾーンOCRだけでは不十分です。
でも、AI OCRの方がダイナミックOCRより優れているのでは?
世界のOCR市場は2023年から2030年まで年平均成長率(CAGR) 14.8%で拡大する見込みです。
AI OCRは、機械学習とコンピュータビジョンアルゴリズムを組み合わせた第一世代のOCRです。ニューラルネットワークにより、データ抽出対象のフィールドを特定します。
AI OCRのデメリット
AI OCRは確かにデータ抽出・分析プロセスを変革しましたが、いくつかの限界もあります。
手作業による確認が必要
AI OCRソフトをワークフローに組み込む際、多くの場合「手作業によるデータ確認」を工程に追加することが推奨されます。これはAIツールが確率的に動作するためで、工程が長くなり、常に人の手が必要になります。
トレーニングが必要
AIモデルは利用の前に必ずトレーニングが必要で、この工程自体に多くの時間を要します。特に大量のデータを処理する場合、有料OCRサービスではモデルの学習に最大4時間かかることもあります。
ブラックボックス
もしAIモデルがうまく動作しなくなった時、ユーザーにできることはモデルを再学習させることだけです。ツールを細かくカスタマイズすることはできません。
AI OCRは高価
AIベースのOCRソフトウェアは、通常高価で、大規模企業向けに最適です。中小企業や個人利用の場合、ベストな選択肢とは言えません。
ゾーンOCR・AI OCR・ダイナミックOCRの違い
各OCRエンジンの主な特徴を比較表にまとめました:
AI OCR | ゾーンOCR | ダイナミックOCR | |
---|---|---|---|
セットアップ | トレーニングが必要 | 即時利用可 | 即時利用可 |
どんな内容にも対応できるか | いいえ。対象は特定の言語や分野に限定 | いいえ。位置やサイズが変わるフィールドは不可 | はい |
即時データ抽出 | いいえ。モデル学習に時間を要する | はい。数秒で処理 | はい。数秒で処理 |
手動によるレビュー | 必要 | 不要 | 不要 |
柔軟性 | いいえ。ブラックボックスで再学習が必要 | はい。調整やトラブルシュートが簡単 | はい。調整やトラブルシュートが簡単 |
あらゆるレイアウト対応 | はい | はい | いいえ |
ここで登場 – ダイナミックOCR!
ダイナミックOCRはどう動作する?
最先端技術でありながら、ごくシンプルな設計にしています。このOCRエンジンは「ラベル」の概念を採用しています。
ラベルとは?
値がドキュメント内で移動する場合でも、その位置は必ずその関連テキストの横など「同じ場所」にあります。下図では、"$1,600.00"が常に"Subtotal"というテキストの隣に存在します。
ラベルを設定することで、フィールド位置のアンカーとなります。Parseurに「まずラベルを探し、次にその周辺から値を抽出する」方法を教える流れです。
このフィールドはラベルを基準に抽出されます。
ダイナミックOCRの操作はたった数ステップ
ステップ1:ラベルを作成
データフィールド名となるテキスト(例:"Subtotal")の上に枠を描画し、「新しいラベルを作成」をクリックします。
ステップ2:ラベルを基準としたフィールドを作成
抽出したい値の上に枠を描画し、そのフィールドが「ラベル基準」であることをParseurに伝えます。
ステップ3:2つ目のラベル作成(オプション)
必要に応じて「終了ラベル」も作成できます。Parseurはこの終了ラベルを用いてフィールドの終わりを判定します。
これで完了です! 抽出したい項目ごとにこの手順を繰り返し、ダイナミックOCRテンプレートを作成します。
ダイナミックOCRの主なメリット
ピンポイントなローカライズ性能以外にも、ダイナミックOCRには多くの利点があります。
データ精度の向上
フィールドサイズや位置が可変でも抽出可能です。ドキュメント内を移動するフィールドも自動キャプチャできるため、他のOCRツールより正確です。
簡単・迅速なセットアップ
複雑な設定は一切不要。Parseur新規ユーザーのメールボックスでは、すでにダイナミックOCRが有効化されています。
多言語ドキュメントに対応
このOCRツールは、世界60以上の言語のPDFや各種書類を解析できます。
ドキュメントは数秒で処理
AIモデルのようなトレーニング時間が不要で、あらゆるPDFファイルを高速に処理します。
ParseurでダイナミックOCRを使ってみよう
Parseurは先進的なOCR技術を持つ強力なPDFパーサーで、書類からのデータ抽出を自動化できます。Parseurはデータ処理時に複雑なパーシングルールやコーディングを必要としません。
Parseur社が2024年6月に実施した調査では、一人あたり毎月約150時間の手作業データ入力と約$6,413のコスト削減効果が確認されました。- Parseur統計 2024年6月
よくある質問
ダイナミックOCRに関する質問と回答をまとめました。
-
ダイナミックOCRの主なユースケースは?
-
OCRエンジンはあらゆる業界で利用できますが、特におすすめの用途は以下の通りです:
- 請求書処理
- 船荷証券
- PDFテーブル抽出
- PDFからExcelへのデータ抽出
-
ダイナミックOCRは他アプリと連携できますか?
-
はい!ParseurはZapier、Make、Power Automateとネイティブ連携しています。OCRエンジンで抽出したデータはダウンロードもでき、ERPやCRM、Webhookなど任意のアプリへエクスポート可能です。
-
ダイナミックOCRは高価ですか?
-
すべての機能を試せる無料プランをご用意しています。料金プランは「使った分だけ」の従量制で、他のPDFパーサーと比べて平均4倍安価です。
-
ダイナミックOCRはテーブルデータの抽出もできますか?
-
はい!ダイナミックOCRはテーブルデータの抽出に対応しています。Parseurにテーブルの開始・終了位置を教えることもできます。
-
ダイナミックOCRの制約点は?
-
新しいレイアウトの文書は自動で解析できません。新レイアウトや新フォーマットの文書は、新しいテンプレート作成が必要です。
-
ダイナミックOCRは英語以外の書類に対応していますか?
-
はい!ダイナミックOCRはすでに60以上の言語でトレーニング済みです。スペイン語、フランス語、日本語、ヘブライ語、アラビア語、ヒンディー語など幅広く対応しています。加えて、160以上の言語も実験的にサポートしています。
最終更新日