クラスタリングを使ったトレーニング
トレーニング中、ABBYY FlexiCapture では、着信文書を作成元の企業に関連付けられた適切なトレーニング バッチに配置します。通常、同じベンダーからの文書は類似のレイアウトになるので、FlexiLayoutをトレーニングして検証ステージで使用することができます。同じ会社からの文書でレイアウトが大きく異なる場合は、クラスタリング機能を使用する必要があります。クラスタリング機能がオンになっている場合、ABBYY FlexiCapture for Invoicesが自動的に文書を分析し、それらをグループ(「クラスタ」と呼ぶ)に共通して持っている機能に基づいて配置します。クラスターごとに個別のFlexiLayoutが作成されます。
クラスタリング機能は初期設定ではオンになっています。クラスタリングを無効にするには、以下のステップを完了させてください:
- 文書定義エディタで 文書定義→文書定義プロパティ...をクリックします。
- 開いたダイアログボックスで文書定義設定 タブをクリックします。
- 追加フィールドと機能グループの右の編集...ボタンをクリックしてください。
- 文書定義機能ダイアログボックスで、クラスター化を有効にするオプションをクリアします。
トレーニング文書は、それぞれの会社に関連付けられたバッチに配置されます。クラスタリング機能がオンになっていて、同じ会社からレイアウトが大きく異なる文書を受信した場合、その会社からの文書は、その会社で使用されているトレーニングバッチ内でクラスタ化されます。クラスターごとに個別のFlexiLayoutがトレーニングされます。クラスタに少なくとも1つの文書があると、トレーニングが開始されます。クラスタリングは完全に自動化されたプロセスで、実際のクラスタはユーザーからは見えないままとなっています。
データベースを持っていないものの、フィールドのトレーニングを使用したい場合は、文書のキャプチャ中にデータセットにレコードを追加していくことで、企業情報を蓄積することができます。詳しくは、データベースでのベンダーや部署の検索をご覧ください。
結果として、FlexiLayoutが作成されます。次の点に注意してください:
- クラスタリング機能がオフになっている場合、文書はそれぞれの会社に使用されている適切なトレーニングバッチに配置され、各会社のFlexiLayoutが作成されます。
- クラスタリング機能をオンになっている場合、トレーニングバッチ内で文書がクラスタ化され、各クラスタに対してFlexiLayoutが作成されます。
注:ABBYY FlexiCapture の以前のバージョンで作成されたプロジェクトを更新する場合、既存の FlexiLayouts を変更せずに使用できます。しかし、一度クラスタリング機能を使うことを選択すると、クラスタリングアルゴリズムがトレーニングバッチ間で文書を再配布し、各クラスタに対して新しいFlexiLayoutが作成されます。
このサンプルカウント列には、バッチ内の文書の数が表示されます。この一致したサンプル列は、トレーニングされた FlexiLayout が100%のフィールドを検出したドキュメントの数を示しています。
特定の会社の文書にあまりにも多くのエラーが認識される場合、カスタム FlexiLayout を作成するか、トレーニング済みの FlexiLayout をエクスポートして ABBYY FlexiLayout Studio で編集することができます。編集が終わったら、カスタムまたは編集したFlexiLayoutをトレーニングバッチに戻します。
トレーニングを受けた FlexiLayout を ABBYY FlexiCapture からエクスポートするには、次の手順を実行します:
- プロジェクト設定ステーションで、Field Training→Open Field Extraction Training Batchesをクリック(または、Ctrl + Alt + Bを押す)して、トレーニングバッチビューに切り替えます。
- バッチを右クリックし、ショートカットメニューのExport Trained FlexiLayout...をクリックします。
- 開いたダイアログ ボックスで、FlexiLayout を含む *.fsp プロジェクト ファイルの保存先を選択します。(これで、ABBYY FlexiLayout Studio でこのファイルを開き、FlexiLayout を修正できるようになります。)
特定の会社に使用するために変更した FlexiLayout または全く新しい FlexiLayout をトレーニングバッチにインポートすることができます(詳細については、プロジェクトのセットアップ権限を持つユーザーによるトレーニングを参照してください)。
FlexiLayout をトレーニングバッチにインポートするには、次のようにします:
- プロジェクト設定ステーションで、Field Training→Open Field Extraction Training Batchesをクリック(または、Ctrl + Alt + Bを押す)して、フィールド抽出トレーニングバッチビューに切り替えます。
- バッチを右クリックし、ショートカットメニューのImport FlexiLayout...をクリックします。
- 開いたダイアログボックスで、FlexiLayoutを含む*.aflファイルを選択します。
また、クラスタリング機能を使用している場合は、以下の制限に注意してください:
- 新しいFlexiLayoutを手動で作成する場合は、該当する会社に由来する可能性のあるすべての文書バリアントをカバーしていることを確認してください - 1つのクラスタに対してのみ手動でFlexiLayoutを作成することはできません。
- メインの文書フィールドのFlexiLayoutのみがエクスポートされます。このタイプのフィールドは別の機械学習アルゴリズムを使用しており、その結果をエクスポートしたり変更したりすることができないため、明細項目のフィールドに対してFlexiLayoutを生成したりエクスポートしたりすることはできません。ただし、明細項目フィールドのFlexiLayoutを手動で作成することはできます。
- 最初のクラスター用にトレーニングされたFlexiLayoutのみがエクスポートされます。
- 新規または修正したFlexiLayoutをトレーニングバッチにインポートした後:
- 文書を処理している間はトレーニングはありません。
- このバッチのクラスタリングは無効になります。
- インポートされたFlexiLayoutは、クラスタに関係なく、この会社のすべての文書を処理するために使用されます。
12.04.2024 18:16:06