Russian (Русский) - Change language

Статистика классификатора

После обучения формируется статистика по результатам классификации.

  • Если странице был присвоен класс, совпадающий с эталонным, то это истинно-положительное срабатывание (далее - ИП).
  • Если странице без эталонного класса не был присвоен класс, то это истинно-отрицательное срабатывание (далее - ИО).
  • Если странице был присвоен класс, не совпадающий с эталонным, то это ложно-положительное срабатывание (далее - ЛП).
  • Если странице не был присвоен класс, но у нее имеется эталонный класс, то это ложно-отрицательное срабатывание (далее - ЛО).

Таким образом, для каждого класса категории формируется статистика - сколько раз этот класс был:

  • правильно присвоен (ИП);
  • правильно не присвоен (ИО);
  • неправильно присвоен (ЛП);
  • неправильно не присвоен (ЛО).

Для просмотра статистики выберите в меню Classifier > Show statistics.

Результаты классификации тем лучше, чем выше точность, полнота и F-мера (Подробнее о том, как считается F-мера см. Глоссарий, F-мера классификации).  F-мера является сбалансированной метрикой полноты и точности и позволяет дать совокупную оценку качества классификации по этим параметрам. Подробнее о том, как повысить F-меру, см. в разделе Практические рекомендации по улучшению качества классификации.

Для оценки качества также доступна статистика на вкладках:

  • Confusion Matrix. Матрица путающихся классов позволяет визуализировать, документы каких классов чаще всего путаются классификатором. В ячейках на диагонали матрицы показано, сколько документов классифицировано верно. В правой колонке и нижнем ряду содержится информация о документах, не приписанных ни одному классу. Остальные ячейки таблицы показывают неверно классифицированные документы;
  • Confusing Classes. На вкладке содержится список классов, перепутанных классификатором. С помощью этой статистики можно выявить, какие классы наиболее часто путаются друг с другом;
  • Statistics by Class. Предоставляет подробную статистику по каждому классу и позволяет идентифицировать классы, вызывающие наибольшее количество ошибок в работе классификатора.

10.11.2020 12:08:08


Please leave your feedback about this article