Russian (Русский) - Change language

Анализ результатов классификации

После обучения формируется статистика по результатам классификации. Анализ статистики поможет понять, как улучшить качество классификатора.

Открыть окно статистики классификации можно одним из следующих способов:

  • нажмите кнопку Статистика на панели инструментов;
  • выберите команду главного меню Обучение классификатораПросмотр статистики.

В открывшемся окне будет представлена следующая информация:

    • F-мера, Полнота и Точность – чем выше эти показатели, тем лучше результаты классификации. (Подробнее о том, как считается F-мера см. Глоссарий, F-мера классификации).
    • Количество страниц с эталонными классами
    • Результат классификации по страницам:
      • Истинно-положительный – количество страниц, которым был присвоен класс, совпадающий с эталонным.
      • Ложно-положительный – количество страниц, которым был присвоен класс, не совпадающий с эталонным.
      • Ложно-отрицательный – количество страниц, которым не был присвоен класс, но у которых имеется эталонный класс.
      • Истинно-отрицательный – количество страниц, которым не был присвоен класс и у которых отсутствует эталонный класс.

С помощью выпадающего списка в левом верхнем углу окна Статистика классификации вы можете выбрать, для каких страниц отображать статистику: с состояниями Для тестирования и Для обучения или с каждым из них по отдельности.

Подробная информация по соотношению эталонных и результирующих классов, а также по результатам обучения классификатора представлена в трех вариантах:

  1. Матрица путающихся классов. Матрица позволяет визуализировать, документы каких классов чаще всего путаются классификатором. В ячейках матрицы представлено соотношение эталонных и результирующих классов. Зеленым цветом выделены ячейки, показывающие количество страниц, которым был правильно присвоен класс. Красным цветом выделены ячейки, показывающие количество страниц с путающимися классами – классами, которые были неправильно присвоены классификатором страницам с эталонными классами.

Инструменты для работы с Матрицей путающихся классов

Показать Матрицу путающихся классов

2. Статистика по классам. Таблица с подробной статистикой по каждому классу. Позволяет идентифицировать классы, вызывающие наибольшее количество ошибок в работе классификатора.

3. Путающиеся классы. На вкладке содержится статистика по страницам, у которых результирующий класс не совпал с эталонным. С помощью этой статистики можно выявить, какие классы наиболее часто путаются друг с другом. Доступна сортировка как по количеству путающихся страниц, так и по процентному соотношению путающихся страниц относительно общего количества страниц с эталонным классом.

Двойной клик по ячейке матрицы или строке в таблицах статистики открывает страницы с выбранными классами. На всех вкладках доступна строка поиска по классам. Также в таблицах статистики доступна сортировка по столбцам для выявления самых проблемных классов.

Для удобства анализа результатов классификации вы можете экспортировать статистику в файл текстового формата. Нажмите Экспортировать статистику... в окне Статистика классификации. В открывшемся окне задайте имя и место хранения экспортируемого файла, выберите формат: Файлы CSV (*.csv) или Текстовые файлы (*.txt). В этом же окне отметьте, какую статистику вы хотите экспортировать (можно выбрать одну или несколько опций):

  • Сводная статистика: информация по основным параметрам классификации: F-мера, Полнота, Точность и результат классификации по страницам.
  • Статистика по классам: статистика по основным параметрам классификации для каждого класса.
  • Путающиеся классы: количество страниц в числах и процентах для каждого путающегося класса.
  • Все классы: количество страниц в числах и процентах для каждого класса.

Статистика будет экспортироваться только для страниц с выбранным состоянием документа в окне Статистика классификации.

Внимание! Необходимо заново запустить обучение классификатора, если были выполнены следующие действия:

  • добавлены/удалены документы с присвоенным состоянием Для обучения;
  • документу было присвоено или удалено состояние Для обучения;
  • добавлены, удалены или объединены классы;
  • документу был назначен другой эталонный класс;
  • изменен профиль классификации и/или приоритет полноты/точности.

1/14/2021 2:17:24 PM


Please leave your feedback about this article