最も高精度なOCRソフトウェア
Parseurは、最先端のAIおよび機械学習技術を活用し、書類から最高精度でテキストを認識します。金融、保険、不動産、物流、Eコマースなど、さまざまな業種で数百万ページの処理実績を誇ります。
OCRはデータ抽出の基盤
光学式文字認識(OCR)は、コンピュータが書類からテキストを認識・抽出する技術です。精度の高いOCRエンジンは、信頼できるデータ抽出プロセスの基盤です。ParseurのOCRエンジンは、コンピュータビジョンと自然言語処理(NLP)を活用し、市場で最大規模のデータセットで訓練されたモデルを使用しています。
すべての方のためのOCR
当社のエンジンは、あらゆる種類の書類からテキストを特定できます。
-
テキストベースPDF
- PDFにテキスト層がある場合、そのテキストを認識します。テキストを含むこれらのPDFは「検索可能PDF」や「PDF/A」として広く使われています。
-
スキャンPDF
- テキスト層がなく画像のみのスキャンPDFも、Parseurはコンピュータビジョン技術を使い高精度でテキストを認識し抽出します。
-
メール・テキスト文書
- メール(画像やリンクを含むリッチテキストメール含む)や各種テキストドキュメントから、100%の精度でテキストを認識します。
-
スプレッドシートなど
- Parseurは、スプレッドシート(Excel、CSV)、Wordドキュメント、ウェブページなどのテキスト認識にも対応しています。詳しくは 対応ファイル形式一覧 をご覧ください。
ほとんどの言語を理解
豊富な学習データセットが高精度OCRエンジンの基礎です。私たちのOCRエンジンは、世界中から言語ごとの大規模データセットで継続的に学習しています。-
60以上の言語をサポート
- 私たちのOCRエンジンは英語、スペイン語、フランス語、ドイツ語、オランダ語、ロシア語、日本語、韓国語、中国語、ヘブライ語、アラビア語、ヒンディー語など、60以上の言語でテキスト認識の学習を重ねています。さらに160言語以上も実験的にサポートしています。
-
手書き文字認識
- Parseurは、ラテン文字、日本語、韓国語の手書き文字も認識できます。また、中国語、ギリシャ語、キリル文字、ベトナム語など他の手書き文字にも実験的に対応しています。
OCRを超えて
OCRで抽出されるのは書類の生テキスト(非構造化データ)です。このベースデータは、弊社のビジュアルなポイント&クリックテンプレートエディタや、Zonal OCR・Dynamic OCRパイプラインを活用することで、精度と信頼性の高い構造化データとして活用できます。



