Russian (Русский) - Change language

Обучение NLP-модели оператором

Обучение NLP-модели оператором позволяет улучшить качество извлечения полей. Если поля документа не найдены или найдены неправильно, то оператор может указать их корректное расположение непосредственно во время ввода документов и заново обучить NLP-модель. Внесенные оператором изменения будут использованы для обработки новых документов.

Замечание. Для подключенных к определению документа NLP-моделей дообучение недоступно.

Для обучения NLP-модели необходимо:

или

  • Вручную отправить документы на этап обучения. Для этого из контекстного меню документа нужно выбрать пункт Обучить.

В общем случае механизм обучения выглядит следующим образом:

  • После запуска обучения ABBYY FlexiCapture автоматически создает общий пакет в списке пакетов для обучения извлечения полей, если он не был создан ранее. В общий пакет копируются все документы, используемые для обучения для конкретного определения документа, не зависимо от того, какой они разновидности.
  • Каждому документу автоматически присваивается статус Для обучения или Для тестирования.
  • Запускается обучение на документах со статусом Для обучения. В результате обучения создается новая NLP-модель.
  • Полученная в результате обучения модель проверяется на документах со статусом Для тестирования.
  • На основе результатов сравнения программой принимается решение о принятии или отклонении новой модели обучения.

При обработке документов может возникнуть ситуация, когда расположение данных на разных документах сильно отличается, даже если общий набор полей одинаковый. Для повышения качества распознавания таких документов создайте отдельные пакеты обучения для каждой разновидности документа.

 

Создание пакета обучения извлечения полей для определенного поставщика или разновидности

Для того чтобы обучать документы от определенного поставщика или документы одной разновидности, необходимо создать новый пакет:

  1. На станции настройки проектов откройте проект с NLP-моделью. Подробнее о том, как настроить NLP-модель см. Создание новой NLP-модели.
  2. Перейдите в Пакеты обучения извлечения полей, для этого выберите Обучение поиску полей > Открыть пакеты обучения извлечения полей (Ctrl + Alt + B) или нажмите кнопку Пакеты обучения извлечения полей на панели инструментов.
  3. Создайте новый пакет: Файл > Новый пакет (Ctrl+N), выберите нужное определение документа и разновидность, отметьте опцию NLP-пакет в контекстном меню пакета.
  4. Добавьте документы, распознайте их, отредактируйте расположение полей и запустите обучение. Для этого в контекстном меню пакета выберите Обучить (Ctrl + F7) или нажмите кнопку Обучить пакет на панели инструментов.

Качество NLP-модели, созданной в результате обучения, зависит от количества документов в пакете для обучения и от качества их разметки.  

  • Все поля, описанные в определении документа, должны быть размечены на документах для обучения.
  • Рекомендуемое количество документов в каждом пакете для обучения – от 100 до 500. Это позволит подобрать оптимальные параметры NLP-модели и в то же время не будет замедлять процесс обучения.  

При обучении оператором новые документы будут добавляться и в общий пакет для обучения, и в созданный для определенных разновидностей.

  • Если при дальнейшей обработке встретятся документы той разновидности, для которой уже был создан пакет обучения, то будет применена NLP-модель для этой разновидности.
  • Если будут обрабатываться документы другой разновидности, то будет применена NLP-модель, созданная для общего пакета обучения.

При добавлении в пакет обучения документа, дублирующего тот, который там уже присутствует, и из того же источника, новый документ заместит добавленный ранее. Соответствующая запись появится в логе задачи обучения в списке фоновых заданий. Является документ дублирующим или нет программа определяет по регистрационным параметрам документа.

После создания пакета вы можете задать дополнительные настройки. Для этого в контекстном меню выберите пункт Показать настройки NLP-пакета....

В открывшемся окне Настройки пакета обучения вы можете указать:

  • Максимальное число документов в пакете
    Если при добавлении новых документов общее их число в пакете будет выше заданного значения, то ранее добавленные документы будут удаляться.
  • Максимальный процент документов в пакете, замещаемых новыми
    Показывает, какой процент документов при достижении лимита может быть заменен на новые за один запуск операторского обучения. Те документы, которые были отправлены этап обучения, но не попали в пакет, не будут использованы для обучения новой NLP-модели.
  • Начинать обучение, если новых документов в пакете __ шт. или __ %
    Обучение будет запущено, как только выполнится хотя бы одно из условий: или количество добавленных документов будет равно или больше указанной величины; или процент новых документов (относительно количества документов, имеющихся в пакете) будет равен или больше указанной величины. Если новых документов меньше, то обучение запущено не будет, а после копирования документов в логе задачи в списке фоновых заданий будет сообщение о том, что обучение пропускается, так как документов недостаточно.
  • Процент документов, которые будут использоваться для обучения
    Указывает соотношение документов со статусом Для тестирования и Для обучения. Например, если процент соотношения указать равным 70%, то это значит, что 70% документов будет использовано для обучения и 30% - для тестирования.

 

Статистика обучения

После завершения обучения можно экспортировать статистику NLP-модели, включающую в себя:

  • Информацию о настройках пакета обучения,
  • Информацию новой и старой NLP-моделях,
  • Время обучения,
  • Версию NLP-компоненты, на которой была обучена NLP-модель,
  • Статистику обучения по документам и полям,
  • Информацию об актуальности экспортированных данных.
    Если параметр isActual = false – значит, что пакет был изменен после обучения и принятия NLP-модели: были добавлены или удалены документы, изменена разметка документа и пр. Для получения актуальной статистики необходимо запустить обучение еще раз.

Для экспорта статистики в контекстном меню пакета обучения извлечения полей выберите Экспорт статистики поиска полей... и укажите путь для сохранения *.csv- файла.

14.01.2021 14:17:24


Please leave your feedback about this article