分類子の改善

分類子改善のためのヒント

分類子によって得られた結果が満足できない場合は、次を試してください:

  • 指定の分類プロファイルが適切かどうか確認してください。
  • 再現率/適合率のバランスを調整します。
  • 参照クラスが正しく割り当てられているか確認してください。
  • より多数のサンプル文書を使用して、分類子をトレーニングしてください。トレーニングバッチにできるだけ多くの異なる文書を含めるようにしてください。トレーニングバッチが大きくてばらばらであればあるほど、分類子が検出できる同じクラスの文書バリアントが多くなります。

文書定義に一致する信頼度

分類子はある程度の信頼度で文書定義と一致します。これは、本質的に文書のクラスに紐付けられています。

信頼性の低い文書定義のセクション名は赤で表示されます。一致した場合にセクションタイプを自動的に確認するが有効になっていると、選択済みクラスに紐付けられたセクションが問題なく適用されている場合、セクション名が赤色で強調表示されることはありません。この場合、当初の一致度の信頼性が低かった場合でも、適用中にクラスが確認されます。

一致オプションでのセクションタイプの自動確認の詳細

手動でプログラムが信頼性の高い文書定義の一致を得られるようにしたい場合、下記の手順のいずれかを実施してください:

  • ページ/文書のコンテクストメニューの文書定義を確認を使用します。
  • 文書定義の一致の必要な信頼限界に達していないページを変更する(たとえば、セクションのタイプを変更したり、別の文書に移動するなど)。
  • ページ/文書の文書定義を変更します。

注:オペレーターが文書を処理した後、文書に信頼度の低いセクションがなくなった場合、一致は自動的に低信頼度と見なされなくなります。

文書定義の一致の信頼度が低いため、エラーウィンドウにアセンブリエラーとして表示されます。不確定に一致した文書定義を含むエラーのある文書は、文書のアセンブリが検証されるステージに送信されます。文書が信頼性の低い分類エラーとは別のエラーを持たない場合、文書は検証ステージに送られます。

分類子トレーニングバッチのエラー検出

分類エラーは、ほとんどの場合、参照クラスの割り当ての誤りか、トレーニングバッチ内のサンプルページの不足により生じます。この種のエラーを検出するには、プログラムに対して、誤分類されたページと同じページを検索するよう命令することができます。そのためには、誤分類されたページを右クリックして、ショートカットメニュー3つのうちのひとつを選択します(これらのコマンドはトップの分類トレーニングメニューからもアクセスできます):

  • 類似ページを表示する選択したページの参照または分類結果と関わりなく、バッチ全体から同様のページを検索します。
  • 参照クラスの類似ページを表示する選択したページの参照クラスと同じ参照クラスをもつ同様のページを検索します。
  • 結果クラスの類似ページを表示する選択したページの結果クラスと同じ参照クラスをもつ同様のページを検索します。

注:プログラムは、マークが学習用テスト用、または未使用であるかどうかに関わりなく、全文書から同じページを検索します。

同様のページが、類似性の降順で、似たものから似ていないものへと表示されます。

実際の例

混同マトリックス内で誤分類されたページを特定して、このページがその参照クラスのIDと結果クラスのインボイスをもっているとします。

混同マトリックスのセルをクリックして、誤分類されたページを開きます。

そのページを右クリックしてショートカットメニューの結果クラスの類似ページを表示するをクリックします(このコマンドはトップの分類トレーニングメニューからもアクセスできます)。これで、分類子バッチ内の、IDページと同様だが参照クラスに指定されたインボイスをもつページをすべて表示します。ページが、類似性の降順で、似たものから似ていないものへと表示されます。

これで、IDページをインボイスとして分類させてしまう誤割り当て参照クラスをもつページを特定することができます。適切な場合は参照クラスを変更し、分類子を再トレーニングします。

参照クラスの類似ページを表示するコマンドをチェックすることで、ページが独自かどうかを確認できます。たとえば、その参照クラスに指定されたIDをもつトレーニングバッチに同じIDページがあるかどうかを確認するために使用できます。おなじIDページが発見されない場合、そのトレーニングバッチにはぐれページを追加して分類子を再トレーニングします。

類似ページを表示するコマンドをクリックすると、参照クラスや結果クラスに関わりなく同じページがすべて表示されます。これによりその分類子バッチ内の同じパスポートページであるページがすべて表示されますが、ID以外の参照クラスを指定済みのものについては表示されません。適切な場合は参照クラスを変更し、分類子を再トレーニングします。

1/14/2021 2:17:22 PM


Please leave your feedback about this article