データ正規化とバリデーション

どのドキュメントからも、同じ形の整ったデータ

メールボックスのスキーマから抽出後処理まで、すべての値が整形・検証され、連携先システムでそのまま使える状態で届きます。

含まれる内容

メールボックス単位のスキーマ

一度フィールドを定義すれば、そのメールボックスで処理されるすべてのドキュメントが同じ構造にマッピングされ、連携先での扱いも安定します。

  • 単一値は通常フィールド、繰り返しはテーブル
  • 抽出内容は自然言語の指示でAIに伝達
  • 画面またはAPIからいつでも調整可能

フィールド単位の整形

組み込みの整形機能で、日付・数値・住所などを自動で標準化。書式はドキュメントの文脈とメールボックスの既定値から判定します。

  • 日付は順序・区切り・月名表記の差を自動解釈
  • 数値は各国の小数点や桁区切りに対応
  • 住所は緯度経度を付与し構造化要素へ分解

データバリデーション

抽出されたすべての値をスキーマで検証。不備は画面上で確認でき、メールやWebhookでも通知できるため、運用の見落としを防げます。

  • スキーマ検証でAIの出力形式を確認
  • 必須フィールドの欠落をすぐ検知
  • 選択肢フィールドの範囲外を警告

後処理ルール

標準の整形と検証に加え、Pythonスクリプトで独自の処理を追加できます。値の加工も業務要件に合わせた検証も柔軟に組み込めます。

  • 値の結合・分割や新規フィールドの算出
  • 独自ロジックや外部データとの照合に対応
  • プロプラン以上でご利用いただけます

データ正規化はこう動きます

直前のステップ

マルチエンジンによるドキュメント解析

Vision AI、Text AI、テンプレート、またはOCRが、各ドキュメントから構造化フィールドを抽出した状態です。

詳細を見る
1

スキーマにマッピング

抽出された値は、メールボックスで定義した固定のフィールド構成にマッピングされます。レイアウトや差出人が違うドキュメントでも、出力は常に同じカラム構造に揃います。

メールボックスの項目
テキスト 取引先 株式会社アクメ
テキスト 請求番号 INV-0142
日付 請求日 2026-05-07
数値 合計金額 284000
テーブル 明細 3列・2行
品目 数量 金額 コンサルティング 12 ¥22,000 機材 2 ¥24,200
2

整形

各フィールドは設定した書式に標準化されます。日付や数値は表記の地域差を吸収して整え、氏名や住所は自動で構成要素に分解されます。

日付 May 7, 2026 2026-05-07
数値 ¥1,234,560 1234560
住所 千代田区丸の内1-1-1
丸の内1-1-1 千代田区 東京都 100-0005 日本
3

検証

すべての値をバリデーションで検証します。不合格のドキュメントはParseur上で即座にフラグが立ち、後処理には進みません。通過した値だけが次の工程へ送られます。

検証
取引先 株式会社アクメ
請求日 2026-04-15
合計金額 必須 未入力
ステータス 却下
許可値: 未払い 支払済 完了
4

後処理

必要に応じてPythonルールを実行し、単一フィールドでは表現できない業務ロジックや複雑な変換を適用します。値の結合、参照データとの照合、出力整形まで自由に組み立てられます。

post_process.py
def post_process(data):
if data["合計金額"] > 1000:
data["配送区分"] = "速達"
else:
data["配送区分"] = "通常"
return data
数値 合計金額 284000
テキスト 配送区分 速達

次のステップ

リアルタイム連携とエクスポート

整ったデータがリアルタイムでCRM、会計、ERP、データベースへ自動で配信されます。

詳細を見る
はじめよう

そのまま使える整ったデータを、御社のシステムへ。

必要なフィールドを定義し、書式を選ぶだけで、抽出結果がすべて期待どおりの形で届きます。

無料プランあり、クレジットカード不要
最初のドキュメントは2分以内に処理開始
契約期間の縛りなし、いつでも解約可能

よくあるご質問

Parseurの正規化とバリデーションに関するよくあるご質問。日付や数値の書式、検証ルール、Pythonによる後処理までを解説します。

データ正規化とは、抽出された生の値を一貫した整ったデータに変換する工程です。書類の種類が違っても日付の書式が揃い、地域差のある数値表記も正しく解釈され、住所は構成要素に分解されます。すべてのフィールドが固定のスキーマにマッピングされるため、連携先システムへは常に同じ構造で渡せます。

Parseurの日付フィールドは、順序・区切り・月名表記の違いを言語をまたいで解釈できます。03/04/2026のような曖昧な表記も前後の文脈から判断し、常に一貫した書式で出力されるため、連携先システムでも安心して利用できます。

はい。氏名フィールドは姓・名・ミドルネームに分解でき、住所はジオコーディングと構造化分解に対応します。いずれもフィールドの書式を指定するだけで自動的に処理されます。

はい。すべての抽出結果に対して、スキーマ検証、必須フィールドの有無、選択肢の範囲外チェックなどを自動で実施します。問題が見つかった場合は、画面表示に加えてメールやWebhookでの即時通知も可能です。

はい。抽出と標準バリデーションのあとに、Pythonスクリプトによる独自の後処理ルールを追加できます。フィールドの結合・分割・計算、業務ロジックの適用、出力書式の変換などに柔軟に対応できます(プロプラン以上)。

正規化を行わないと、書類ごとに日付の並びや区切り、数値表記、氏名・住所の表現にばらつきが残り、連携先システムでのエラーやデータ不整合の原因になります。正規化により、こうした問題を未然に防ぎ、システム間連携の安定性を確保できます。

数値フィールドは、欧州式の1.234,56、米国式の1,234.56、インド式の1,00,00,000、括弧付きのマイナス表記($123,456,789.12)など、各地域の区切りや書式を自動で解釈します。文脈に応じて最適な書式を判定し、メールボックスの既定値も活用します。

対応しているのはテキスト、日付、時刻、日時、数値、氏名、住所、選択肢の各書式です。書式ごとに専用の解釈ルールと検証ルールが用意されており、単一値は通常フィールド、繰り返しはテーブルフィールドで扱います。

バリデーションに不合格のドキュメントは「処理失敗」ステータスとなり、エクスポートは実行されません。メール通知やWebhook通知を設定でき、手動修正や監視ツールとの連携にも対応できます。

メールボックスごとに専用のスキーマを設計することで、どの書類でも同じフィールド構成に揃えられます。例えば異なる企業から届く請求書でも、出力は必ず同じカラムに統一されます。