企業データベースに基づく分類
企業ベースの分類を使う場合
分類で各文書が特定のクラスに割り当てられます(詳細は分類セクションご参照)。それぞれの文書の発行企業を個別のクラスとして扱うことができます。
同じ企業の文書は似ていることが普通で、同じ位置に同じフィールド型があるため、データ抽出が比較的簡単です。
文書は企業のデータベースを使用して分類できます。このデータベースは、当該のABBYY FlexiCaptureプロジェクトに含まれます。このデータベースに入力する場合は、ERPシステムの企業リストを使用できます。ABBYY FlexiCaptureは、企業データベースとERPシステムの最新データを定期的に同期します。企業のデータベースがまだない場合は、文書の検証段階で企業をデータベースに追加して、文書のデータを取得している間に、データベースを作成できます。
企業情報は通常、各文書の最初のページと最後のページにあるため、必要なフィールドの検索は、これらのページでしか行われません。
企業ベースの分類は、次のように他の分類方法よりも優れた点があります。
- トレーニングセットを作成するために、時間や労力を要するサンプル文書画像の収集をする必要はありません。
- 画像ベースやテキストベースの分類よりも多い、最大100,000クラスに基づいて文書を分類できる。
企業ベースの分類は、フィールド抽出に使用できます。各企業には独自のセクションのバリエーションがあり、それに対して個別のFlexiLayoutをトレーニングまたは作成できます。
注:プロジェクト内で、次のものを同時に使用できます。
- バッチ型やプロジェクトレベルの文書種類分類子
- 文書定義レベルの同類文書の企業ベース分類子
まず文書のクラスを判別するために文書種類分類子が実行されて、次に必要なクラスの文書に対して企業ベース分類子が実行されます。
分類子が企業のデータベースに基づいて検出した文書バリエーションは、トレーニング用のトレーニング済みFlexiLayoutを一意に識別します。フィールドトレーニングが、企業ごとに個別で実施することを意味します。
企業ベースの分類設定
企業ベースの分類は、文書定義内で(同じ種類の文書に対して)実施します。同じ種類の文書には抽出するデータフィールドの同一のセットがあります(詳細は文書定義セクションご参照)。
企業データベースを使用して文書を分類する場合。
- 文書セクションを右クリックして、プロパティをクリックするか、文書定義エディタを開いて文書定義 → 文書定義プロパティをクリックします。
- データセットタブでリストからデータセットを選択し、セットアップ...ボタンをクリックします。
- 企業のデータベースを使用オプションを選択します。デフォルトで、必須の列とそのタイプはデータセットに指定されています。(データセットは基本的に企業を探すフィールドリストを含む表です。 ユーザーはこの表を変更できません)
- データセットをODBC互換のデータベースに接続する場合は、データセットの各フィールドをデータベースの対応するフィールドに割り当ててください。詳細は、ベンダーや部署のデータベースの接続をご参照ください。
注:データセットフィールドと一致するデータベースフィールドに割り当てた企業が検索されます。少なくとも一つのフィールド(企業名など)で割り当てる必要があります。データセットフィールドと一致するデータベースフィールドがない場合は、該当するフィールドを割り当てるときになしを指定します。
注:特定のフィールドのみ文書の企業情報検索で使用されます。これらのフィールドの隣には小さいロックアイコンがあります。企業ベースの分類を設定するときに独自のカスタムフィールドを追加できますが、これらのフィールドは情報の表示にのみ使用されます。 - いくつかバリエーションのある企業名を検索する場合は、全バリエーションを1つの標準名まで絞る正規化を使用します。データセット列のマッピングダイアログボックスで、正規化フィールドに必要な正規化の種類を指定します(詳細はデータセットの値の正規化を参照)。
時には、たとえばデータソースパラメータ(すなわち、スキャンオペレーターの名称またはセンダーの電子メールアドレス)から企業名を前もって知ることができます。
ABBYY FlexiCaptureは、自動検出の前に、サプライヤーと企業の部門を明確に指定できることが特長です。
部門を明確に指定するには、fc_Predefined:PredefinedSectionVariantId 文書登録パラメータを、データセットの該当するエントリの分類子 (Id) に設定します。この場合でも、任意のエントリーについて企業名自動検出手順を実行することができます。その結果、明示された企業名と、その企業名が画像から抽出された名称と一致する程度を示す信頼度の値が表示されます。
注:この方法は、文書のひとつのセクションに複数の変形がある場合にのみ使用できます。
企業ベースの分類結果の確認と編集
事前定義した企業名リストで企業を検索するので、企業のデータベースで文書を分類するときにトレーニングは必要ありません。分類エラーはオペレータが修正できます。文書が違う企業に結びつけられているときは、いつでもオペレータが正しい企業名を選択してデータベースに保存できます。正しい情報は以降の分類でも使用します。
オペレータが分類エラーを修正できるようにする場合は、データフォームに分類結果を表示して、フィールド検索開始ボタンを追加してください。この場合、次の手順を完了します。
- サービスフィールドを作成します。
- 文書定義エディタで、フィールドを作成 → サービスフィールドをクリックします。次に、フィールドプロパティで、データソースタブをクリックし、ソースリストからフレキシブルセクションバリアント IDを選択します。
- 企業の識別に必要な場合は、サービスフィールドを作成します(IBAN、VATIDなど)。
- データベース確認規則の作成方法。
- グループを右クリックしたらプロパティ...をクリックして、ルールタブ、新規ルール...ボタンをクリックします。
- リストからデータベース確認を選択して、OKをクリックします。
- データソースフィールドで、データセットデータセットを選択します。次に、データセットフィールドで、必要なデータセットを選択します。
- 記録IDを保存するフィールドで、ステップ1で作成したサービスフィールドを選択します。
- 追加ボタンをクリックして、必要な文書とデータベースフィールドを指定します。文書フィールドとデータベースフィールドの値が異なる場合は、検索と置換のオプションを選択します(データベースから値を入力 → 値が異なる場合)。
企業ベースで分類するので、分類子が検出した全フィールドは領域を持ちます。
- 検索ダイアログボックスを開くボタンをデータフォームに追加する方法。
- ボタンを配置するデータフォームで右クリックし、ショートカットメニューのボタンを挿入をクリックします。
- 形式タブで、ステップ2で作成したデータベース確認規則を選択します。
- 位置タブで、ボタンの名前を指定します。
これで検証オペレーターは、データフォームにある当ボタンをクリックして、検索ダイアログボックスを開けるようになります。
企業ベースの分類改善
キーワードと正規表現の指定
企業の検出を改善するためにキーワードと正規表現を指定できます。キーワードには、VATIDやIBANフィールドのデータなど、企業を一意に識別する文字列を使用します。
企業記録の編集
企業の検出改善の別の方法として、ABBYY FlexiCaptureで保存された企業記録を編集するものがあります。企業ごとに、複数の名前のバリエーションと所在地を指定できます。これは、管理者が文書定義エディタを使用して実行、または検証オペレーターが実行できます。
ABBYY FlexiCaptureで保存された企業記録しか変更できません。外部データベース(ERPシステムなど)との同期が可能でも、管理者または検証オペレーターによる変更は外部データベースには転送されません。
文書定義で許可済みの場合、オペレーターは新しい記録を追加したり既存の記録を編集したりできます。
デフォルトでは、オペレーターは記録の追加や編集をできません。オペレーターによる記録の追加や編集を許可する方法。
- 文書定義エディタで、文書定義 → 文書定義プロパティ...をクリックします。
- 表示されたダイアログボックスで、データセットタブをクリックします。
- リストからデータセットを選択して、セットアップ...ボタンをクリックします。
- オペレータはレコードを追加できますおよびオペレータはレコードを編集できますオプションを選択します。
オペレーターが記録の追加や編集をできないようにする場合は、上の2つのオプションをオフにします。
12.04.2024 18:16:25