データセットの値の正規化
この記事では、外部データベースからの列をデータセット1つのABBYY FlexiCapture for Invoices文書定義内)に追加する際に使用できるさまざまな正規化タイプ、そしてそのような正規化タイプの設定について説明します。
正規化は、さまざまなスタイルで書かれているものの本質的には同じ意味である値のフォーマットを変更するために使用されます。正規化によって値のフォーマットは一貫性を持つようになるため、比較が可能になります。たとえば、会社の住所や名前はさまざな方法で書かれます。そのような値は同じ会社や住所を意味しているので、正規化してプログラムが適切に比較できるようにする必要があります。
正規化のタイプは、列を外部データベースの列にマッピングする際にデータセットの各列で指定できます。
正規化はデータセットに保存された値にのみ適用されます(キャッシュデータそのため、オプションをデータセットのプロパティで有効化してください)。外部データベースにある値は変更されません。
プログラムでのデータ抽出時における正規化の動作について
1.テキスト
このタイプの正規化は、会社の名前や住所といった文字列を比較する場合に便利です。
- スペース(改行やタブ文字も含む)と分離記号は、通常のスペースに置き換えられます。
- セパレーターとして使われているピリオド(語と語の間に置かれるピリオド)はスペースに置き換えられ、略語で使われているピリオドは削除されます。
- 接続記号(&,+,-,/,~)の正規化:
- 1 文字で始まり、同じ接続記号で区切られている語のセットは単一の語にまとめられます。たとえばR & DはR&D となり;
- それ以外の場合は接続記号がスペースで置き換えられます。たとえばProcter&GambleはProcterGamble。
- ダブルスペースは削除されます。
- 事前に指定されたリストを使って語を分割します。たとえばCoKGはCoKG。
- 認識されたテキスト内のスペースを使って複数の語に分割します。
- 事前に指定されたリストを使って、各語のサフィックスを置き換えます。たとえば、strasseというサフィックスをstrにできます。
- 事前に指定されたリストに従って、語の文字列を自動的に置き換えます。たとえば、Limitedという文字列をLtdに省略可能です。
正規化パラメータはNormalization.xmlというファイルで指定します。このファイルはプロジェクトのフォルダに保存されます。
詳細...
注:今後のプログラムでは正規化アルゴリズムが大幅に変更される予定です。
2.英数コード
このタイプの正規化は、税金 ID 番号、銀行口座、郵便番号といった英数字コードの比較に便利です。
数字や文字を除くすべての記号が値から削除されるので、そのような値に含まれているスぺース、ダッシュ、スラッシュ、その他の任意文字を無視して比較することができます。
正規化が適用されると正規化された値を保存、データセットの列を外部データベースの列にマッピングする際にオプションが有効になります。
- このオプションが有効であれば、正規化された値は次に保存されます→データセット。
- このオプションが無効であれば、外部データベースからの元の値が次にコピーされます→データセット。
このオプションはデータの抽出や自動チェックには影響しませんが、ユーザーが辞書にあるエントリーを検索する際に表示される値を決定します。
12.04.2024 18:16:06