最も高精度なOCRソフトウェア
Parseurは、最先端のAIおよび機械学習技術を活用し、書類から高い精度でテキストを認識します。金融、保険、不動産、物流、Eコマースなど、さまざまな業種で数百万ページの処理実績を誇ります。
OCRはデータ抽出の基盤
光学式文字認識(OCR)とは、コンピュータが書類から文字情報を抽出・認識する技術のことです。高精度なOCRエンジンを導入することが、信頼性の高いデータ抽出を実現する鍵となります。ParseurのOCRエンジンは、コンピュータビジョンと自然言語処理(NLP)を組み合わせ、大規模なデータセットで学習した高度なモデルを使用しています。
すべての方のためのOCR
当社のエンジンは、あらゆる種類の書類からテキストを正確に認識します。
-
テキストベースPDF
- PDFにテキスト層が含まれている場合、そのテキスト情報を直接抽出します。テキストを持つこれらのPDFは「検索可能PDF」や「PDF/A」とも呼ばれ、広く普及しています。
-
スキャンPDF
- スキャンPDFのようにテキスト層のない画像のみのファイルでも、Parseurはコンピュータビジョン技術を活用して高精度に文字を認識します。
-
メール・テキスト文書
- メールはもちろん、リッチテキストを含むメールや各種テキストドキュメントからも、情報を高精度で認識します。
-
スプレッドシートなど
- Parseurは、ExcelやCSVなどのスプレッドシート、Wordドキュメント、ウェブページなどのテキストデータにも対応しています。詳しくは 対応ファイル形式一覧 をご参照ください。
多くの言語を理解
豊富な学習データセットは、高精度OCRソフトウェアの基盤です。当社のOCRエンジンは、世界各国の多様な言語データで継続的に学習を重ねています。-
60以上の言語に対応
- 英語、スペイン語、フランス語、ドイツ語、オランダ語、ロシア語、日本語、韓国語、中国語、ヘブライ語、アラビア語、ヒンディー語など、主要60以上の言語を高い精度で認識します。さらに160言語以上にも実験対応しています。
-
手書き文字認識
- Parseurは、ラテン文字、日本語、韓国語の手書き文字を認識できます。また、中国語、ギリシャ文字、キリル文字、ベトナム語などの手書きも実験的にサポートしています。
OCRを超えて
OCRは、書類内の生テキスト(非構造化データ)を抽出します。その抽出データを、弊社のビジュアルなポイント&クリック テンプレートエディタや、Zonal OCR、Dynamic OCRパイプラインと組み合わせることで、より高精度で信頼性のある構造化データを生成できます。