Russian (Русский) - Change language

Рекомендации по улучшению качества работы классификатора

Если классификатор по каким-то причинам показывает на выборке документов неудовлетворительные результаты, попробуйте следующие шаги:

  • проверьте, подходит ли выбранный профиль классификации;
  • проверьте, верно ли задан баланс полноты/точности;
  • проверьте, правильно ли были назначены эталонные классы;
  • увеличьте выборку документов для обучения. Добавьте в выборку максимальное количество вариаций документа, которые могут встречаться в обрабатываемом классификатором потоке. Чем больше будет набор вариативных документов в обучающей выборке, тем больше вариантов документов одного и того же класса будет распознаваться классификатором.

Неуверенность наложения определения документа

Результатом работы классификатора является наложенное с определенной степенью уверенности определение документа, связанное с классом.

Названия разделов с неуверенно наложенным определением документа подсвечиваются красным. Если выставлена опция Подтверждать тип раздела при наложении и на раздел успешно наложилось описание раздела, связанное с выбранным классом, то название раздела подсвечено красным не будет. В этом случае при наложении происходит подтверждение выбора класса, даже если изначально класс был выбран неуверенно.

Подробнее об опции Подтверждать тип раздела при наложении...

Неуверенность наложения может быть снята вручную одним из следующих способов:

  • с помощью команды Подтвердить определение документа в контекстном меню страницы / документа;
  • путем изменения страницы, для которой не достигнут порог уверенности наложения определения документа (например, смена разновидности раздела, перемещение в другой документ и т.д.);
  • путем смены определения документа для страницы / документа.

Замечание. Неуверенность наложения определения документа будет снята автоматически, если в документе после обработки его оператором больше нет разделов с неуверенно наложенным определением документа.

Неуверенность наложения определения документа отображается в окне ошибок в виде ошибки сборки. Документы с ошибками, в числе которых неуверенность наложения определения документа, отправляются на стадию проверки сборки документа. Если в документе нет других ошибок, кроме неуверенности классификации, документ отправляется на стадию верификации.

Поиск ошибок в обучающей выборке

Наиболее распространенными причинами неправильной классификации являются ошибки ручной разметки обучающей выборки в пакете классификатора: неправильно назначенные эталонные классы, либо отсутствие примеров страниц в пакете. Для выявления и устранения таких ошибок вы можете использовать инструмент поиска похожих страниц.

Выделите нужную страницу в пакете классификатора. Выберите в меню Обучение классификатора или в контекстном меню страницы необходимую команду:

  • Показать похожие страницы – поиск похожих страниц по всему пакету вне зависимости от эталонного и результирующего класса страницы-образца.
  • Показать похожие страницы среди эталонного класса – поиск похожих страниц, у которых такой же эталонный класс, как и эталонный класс страницы-образца.
  • Показать похожие страницы среди результирующего класса – поиск похожих страниц, у которых такой же эталонный класс, как и результирующий класс страницы-образца.

Замечание. Поиск похожих страниц осуществляется вне зависимости от состояния документа – Для обучения, Для тестирования или Не используется.

Похожие страницы будут показаны в порядке убывания процента схожести:

Пример использования инструмента поиска похожих страниц для выявления ошибки ручной разметки:

На матрице путающихся классов была обнаружена неправильно классифицированная страница с эталонным классом ID и результирующим Invoice.

Нажмите на ячейку, откроется эта страница.

Выберите в меню Обучения классификатора или в контекстном меню страницы Показать похожие страницы среди результирующего класса. Будут показаны все страницы в пакете классификации, которые похожи на ID, но имеют эталонный класс Invoice. Показанные страницы будут располагаться по уменьшению процента схожести.

Так будут выявлены ошибки разметки, которые привели к неверному результату классификации паспорта. Для исправления таких ошибок необходимо назначить правильный эталонный класс найденным похожим страницам и переобучить классификатор.

По команде Показать похожие страницы среди эталонного класса можно проверить, является ли страница уникальной – есть ли примеры таких ID в пакете обучения с эталонным классом ID. Если не будет найдено ни одной похожей страницы, значит страница уникальная. Ее нужно добавить в пакет обучения и переобучить классификатор.

По команде Показать похожие страницы будут выведены все похожие страницы, не зависимо от того, какой у них эталонный класс. Так будут выявлены похожие на ID страницы, но с другими эталонными классами. Им нужно назначит правильный эталонный класс и переобучить классификатор.

1/14/2021 2:17:24 PM


Please leave your feedback about this article