ダイナミックOCRとは?
ダイナミックOCRは、Parseurが開発した最新の高度なOCRエンジンです。AI OCRやゾーンOCRはデータ抽出に優れていますが、それぞれに制限があります。これらの課題を克服するため、Parseurは独自のダイナミックOCRを導入し、より柔軟で正確なデータ抽出を実現しました。
ゾーンOCRの限界
ゾーンOCRは、書類内の特定の「ゾーン」から情報を抽出するタイプのOCRです。この方式は、データフィールドの位置が常に同じ場合に最も効果を発揮します。しかし、以下のような課題があります:
- データが文書ごとに動的に移動すると正確に抽出できない
- フィールドのサイズが変動すると対応できない
- スキャン品質が低い文書をうまく読み取れない
ゾーンOCRとは? についてさらに詳しく
可変のデータフィールドがある文書で困っていませんか?
例えば、「テーブルの行」や「合計」「小計」などの項目は、テーブル内のデータ数によって毎回異なる位置に表示されます。そのため、請求書や発注書(PO)ごとにフィールド位置が変わります。
このようにフィールドが上下左右に移動する、もしくはサイズが変わる場合、ゾーンOCRだけでは正確な抽出は難しくなります。ゾーンOCRは「固定位置」に強いため、可変な書類には対応しきれません。
位置が変わるフィールドでも正確にデータを取るには?
たとえば、毎月異なる数字が記載される財務諸表などを考えてみてください。月ごとのコストや収益によってレイアウトが変わるため、定位置にデータがあるとは限りません。会計監査やレポート作成などで迅速なデータ取得が必要な場合、ゾーンOCRのみでは不十分です。
AI OCRはダイナミックOCRより優れていないのか?
世界のOCR市場は2023年から2030年まで年平均成長率(CAGR) 14.8%で拡大しています。
AI OCRは、機械学習やコンピュータビジョン技術を利用した新世代のOCRです。AIエンジンはニューラルネットワークを活用してデータフィールドを抽出します。
AI OCRの主な弱点
AI OCRは多くのデータ抽出課題を解決していますが、下記の制限点もあります。
手作業による確認が必要
AI OCRを導入する多くの企業では、結果の正確性を担保するために必ず手動確認の工程を設けています。これはAIによる抽出結果が確率的だからです。そのため自動化のはずが人的リソースも必要となり、工程が増えがちです。
トレーニングに時間・手間がかかる
AIモデルは事前にトレーニングを行う必要があり、その作業自体に数時間を要する場合もあります。大量データの処理や新しいインボイステンプレート追加時などは特に時間がかかります。
ブラックボックス問題
AIモデルで問題が発生した場合、ユーザー側で細かく設定を調整したり、個別にチューニングすることは困難です。基本的に再トレーニングするしか対策がありません。
コストが高い
AI搭載OCRは価格も高額になりがちです。大企業では導入され始めていますが、中小企業や個人利用ではなかなかハードルが高いのが現状です。
ゾーンOCR・AI OCR・ダイナミックOCRの違い
各OCRエンジンの主な違いを以下の表でまとめます:
AI OCR | ゾーンOCR | ダイナミックOCR | |
---|---|---|---|
セットアップ | トレーニングが必要 | 即時利用可 | 即時利用可 |
すべての内容を解析できるか | いいえ。言語や業種が限定される | いいえ。可変フィールドは不可 | はい |
即座のデータ解析 | いいえ。モデル学習が必要 | はい。数秒で処理 | はい。数秒で処理 |
手動データレビュー | 必要 | 不要 | 不要 |
柔軟性 | いいえ。ブラックボックスで調整が困難 | はい。調整・トラブルシュートが容易 | はい。調整・トラブルシュートが容易 |
あらゆるレイアウトで解析できるか | はい | はい | いいえ |
ここで登場 − ダイナミックOCR!
ダイナミックOCRはどう動作する?
ダイナミックOCRは最新技術にも関わらず仕組みは極めてシンプルです。このエンジンは「ラベル」の概念に基づいてデータを抽出します。
ラベルとは?
どんな文書でも、抽出したい値の位置は必ず決まったテキストの横や近くに並んでいます。例えば「$1,600.00」のような値が「Subtotal(小計)」というラベルの右隣にあるケースです。
ダイナミックOCRでは、このラベルを基準点(アンカー)として認識します。Parseurがラベルを検出し、その位置を元に正確なデータを抽出できる仕様となっています。
フィールドはラベルに対して相対的に抽出されます。
ダイナミックOCRの設定手順
ステップ1:ラベルを設定
抽出したいデータのキーワード(例:「小計」や「合計」など)の上で枠を描き、「新しいラベル作成」をクリックします。
ステップ2:ラベルを基準にしたフィールド抽出
取得したい値に枠を描き、このフィールドがラベルを基準にしていることをParseurに示します。
ステップ3:追加ラベル設定(任意)
必要なら「終了ラベル」も作成できます。Parseurはこれを用いてフィールド範囲の終わりを最適に判断します。
これらの手順を必要なフィールド分繰り返すだけで、ダイナミックOCRテンプレートを効率的に構築できます。
ダイナミックOCRの主なメリット
高度なローカライズ機能に加え、ダイナミックOCRには以下の強みがあります。
高精度データ抽出
フィールド位置やサイズが変動しても、正確にデータを抽出できます。可変フィールドへの高い追従性が、他のOCRエンジン以上の精度を実現します。
シンプルですぐに使える
複雑な設定や長時間の調整は不要。Parseurの新規ユーザーの場合、ダイナミックOCRはデフォルトで有効です。
多言語・多様な書類に対応
世界60カ国以上の言語でPDFやさまざまな書類を解析可能なOCRエンジンです。
処理も高速
AI OCRのような時間のかかるトレーニング不要で、ダイナミックOCRならあらゆるPDFを数秒で解析できます。
ParseurのダイナミックOCRを体験しよう
Parseurは先進的なOCR機能を持つ強力なPDFパーサーで、書類データ抽出を自動化します。プログラミングや複雑なパーシングルール作成は一切不要です。
2024年6月Parseur独自統計によると、ユーザーは毎月150時間の手作業削減と約$6,413のコスト削減を実現しています。(2024年6月時点)
ダイナミックOCRに関するよくある質問
主なユースケースは?
ダイナミックOCRは幅広い業界で活用できますが、特に次のようなシーンで威力を発揮します:
- 請求書処理
- 船荷証券
- PDFテーブル抽出
- PDFからExcelへのデータ移行
他アプリとの連携は可能ですか?
はい、ParseurはZapier、Make、Power Automateなどとネイティブ連携しています。抽出データをERP・CRM・Webhookなど任意のアプリへエクスポートも自在です。
価格は高いですか?
無料プランで全機能がお試しいただけます。料金プランは従量課金型で、他のPDFパーサーより平均4倍安価です。
テーブルデータの抽出もできますか?
もちろんです。テーブルデータの抽出にも対応し、Parseurでテーブルの開始・終了位置を柔軟に設定できます。
制限点はありますか?
新しいレイアウトの文書は自動検出できません。新しい書式には新たにテンプレート作成が必要です。
英語以外の書類にも対応していますか?
はい!既に60以上の言語でトレーニング済みです。スペイン語・フランス語・日本語・ヘブライ語・アラビア語・ヒンディー語などに完全対応、さらに160カ国の言語も実験的にサポートしています。
最終更新日