適合率と再現率の相反関係
分類子が文書を正しく分類できない場合は、次の2つのカテゴリに分類されます:
- 分類子が、文書に間違ったクラスを割り当てます。たとえば、クラスAのページがクラスBに分類されます。
- 分類子が、文書にクラスを割り当てられません。
エラーについてのこの2つのカテゴリーは、文書分類の質の特性を決めるもので、通常は適合率と再現率として測定されます。
- 適合率は、特定のクラスに正しく割り当てられた文書の数を、そのクラスに割り当てられた文書の総数で除して算出します。
- 再現率は、特定のクラスに正しく割り当てられた文書の数を、そのクラスの文書の総数で除して算出します。
分類設定を調整して、適合率または再現率の優先順位を付けることができます。
適合率の優先順位付け
誤ったクラスに分類されている文書の数が可能な限り少ないに違いない場合(また、文書の一部を未分類のままにすることが受容される場合)、高適合率設定を使用します。
例
ある企業で、請求書と契約書を分類して、各クラスの文書を処理する部門に送信できるようにする必要があります。
ABBYY FlexiCaptureが請求書を間違って分類した場合、その請求書は正しい部署に到着せず、支払いが行われません。ABBYY FlexiCaptureが請求書をまったく分類しない場合、請求書は手動で分類され、適切な部署に送られます。
この例では、ある文書のクラスを可能な限り正確に検出することが重要です。
再現率の優先順位付け
どのクラスにも分類されていない文書の数が可能な限り少ないに違いない場合(また、文書の一部が誤ったクラスに分類されていることが受容される場合)、高再現率設定を使用します。
例
ある企業では、多数の貸し付け書類の山から特定のクラスの貸し付け書類を識別して処理する必要があります。
ABBYY FlexiCaptureが関連する文書へのクラスの割り当てに失敗した場合、その文書は処理されません。
企業は、FlexiLayoutの適用、検証ルールの使用、または手動でのエラー修正によって、誤ったクラスに割り当てられた文書の処理を防止することができます。
この例では、可能な限り多数の関連文書を再現することが重要です。
デフォルトでは、再現率と適合率のバランスが、均衡に設定されています。
12.04.2024 18:16:07