Russian (Русский) - Change language

Типы ошибок и баланс точности/полноты

Ошибки в результатах классификации могут быть двух видов:

  1. класс документа узнан неправильно, например, страница целевого класса А классифицирована как класс В.
  2. класс документа не узнан: классификатор не присвоил странице класс.

Эти две категории ошибок влияют на качество классификации и измеряют точность и полноту.

  • точность – отношение числа документов, классифицированных корректно, к общему числу документов.

Подробнее о статистике см. Статистика классификатора.

  • полнота – отношение числа документов, классифицированных корректно, к общему числу документов этого класса.

Приоритет точности

Выставьте высокий приоритет точности, чтобы уменьшить количество неправильно узнанных документов. При этом не критично, если некоторые документы класса будут не узнаны.

Пример сценария с приоритетом точности:

Необходимо классифицировать инвойсы и юридические договоры для дальнейшей отправки в соответствующие департаменты.

Цена ошибочно классифицированного документа: инвойс не попадёт в нужный департамент и не будет оплачен.

Цена неузнанного документа: документы, не узнанные классификатором, будут распределены по департаментам вручную.

Таким образом, чтобы инвойс был оплачен, важнее избежать ошибочной классификации, чем не узнать класс некоторых документов.

Приоритет полноты

Выставьте высокий приоритет полноты, чтобы как можно больше документов класса были узнаны классификатором. При этом не критично, если некоторые будут отнесены к классу ошибочно.

Пример сценария с приоритетом полноты:

Обязательные для обработки документы должны быть найдены среди документов по кредитным делам.

Цена ошибочно классифицированного документа: ошибочная отправка документов, не относящихся к классу, может быть скорректирована при дополнительной обработке, например, с помощью наложения гибкого описания FlexiLayout, валидации правилами и ручной обработкой.

Цена неузнанного документа: необходимые документы будут утеряны.

Таким образом, чтобы все необходимые документы были найдены, принципиальнее не потерять ни одного документа класса.

По умолчанию задан сбалансированный режим.

11/10/2020 12:08:08 PM


Please leave your feedback about this article