最も高精度なOCRソフトウェア

Parseurは、最先端のAIおよび機械学習技術を活用し、書類から最高精度でテキストを認識します。金融、保険、不動産、物流、Eコマースなど、さまざまな業種で数百万ページの処理実績を誇ります。

OCRはデータ抽出の基盤

光学式文字認識（OCR）は、コンピュータが書類からテキストを認識・抽出する技術です。精度の高いOCRエンジンは、信頼できるデータ抽出プロセスの基盤です。ParseurのOCRエンジンは、コンピュータビジョンと自然言語処理（NLP）を活用し、市場で最大規模のデータセットで訓練されたモデルを使用しています。

すべての方のためのOCR

当社のエンジンは、あらゆる種類の書類からテキストを特定できます。

テキストベースPDF: PDFにテキスト層がある場合、そのテキストを認識します。テキストを含むこれらのPDFは「検索可能PDF」や「PDF/A」として広く使われています。
スキャンPDF: テキスト層がなく画像のみのスキャンPDFも、Parseurはコンピュータビジョン技術を使い高精度でテキストを認識し抽出します。
メール・テキスト文書: メール（画像やリンクを含むリッチテキストメール含む）や各種テキストドキュメントから、100％の精度でテキストを認識します。
スプレッドシートなど: Parseurは、スプレッドシート（Excel、CSV）、Wordドキュメント、ウェブページなどのテキスト認識にも対応しています。詳しくは対応ファイル形式一覧をご覧ください。

ほとんどの言語を理解

豊富な学習データセットが高精度OCRエンジンの基礎です。私たちのOCRエンジンは、世界中から言語ごとの大規模データセットで継続的に学習しています。

60以上の言語をサポート: 私たちのOCRエンジンは英語、スペイン語、フランス語、ドイツ語、オランダ語、ロシア語、日本語、韓国語、中国語、ヘブライ語、アラビア語、ヒンディー語など、60以上の言語でテキスト認識の学習を重ねています。さらに160言語以上も実験的にサポートしています。
手書き文字認識: Parseurは、ラテン文字、日本語、韓国語の手書き文字も認識できます。また、中国語、ギリシャ語、キリル文字、ベトナム語など他の手書き文字にも実験的に対応しています。

OCRを超えて

OCRで抽出されるのは書類の生テキスト（非構造化データ）です。このベースデータは、弊社のビジュアルなポイント＆クリックテンプレートエディタや、Zonal OCR・Dynamic OCRパイプラインを活用することで、精度と信頼性の高い構造化データとして活用できます。

強力なテンプレートエンジン

複数テンプレートと自動レイアウト検出を使って、さまざまなレイアウトからデータを抽出できます。

テンプレートエンジンの詳細

Zonal OCR

Zonal OCRで、必ず同じ位置にある項目からテキストを抽出できます。

Zonal OCRの詳細

Dynamic OCR

Dynamic OCRを使えば、横・縦移動やサイズが変化するフィールドからも、簡単にテキストを抽出できます。

Dynamic OCRの詳細

書類のデータ入力、
まだ手作業で続けますか？

数分で設定完了。業務で使う書類からデータを自動で抽出できます。

AIモデルの学習や複雑な初期設定は一切不要

導入したその日から本番業務で使える

少量の処理から大量の自動化まで柔軟に対応