Russian (Русский) - Change language

Создание новой NLP-модели

Создание полей документа

Для каждой сущности, которую мы хотим извлечь из текста, надо в определении документа создать соответствующее ей поле. Чтобы создать такое поле:

  1. Откройте Редактор определения документа.
  2. Нажмите правой кнопкой мыши на название раздела документа и выберите Создать поле.
  3. Создайте поле типа Текст.
  4. На вкладке Общие отметьте опцию Может иметь регион.
  5. В графе Название укажите имя поля, которое будет отражать смысл хранимых в нем данных, например, PreambleSegment.
    Внимание! Названия полей должны быть написаны слитно, не начинаться с цифр и содержать буквы только латинского алфавита.

    Окно Свойства

Повторите перечисленные выше шаги для каждой сущности.

Замечание. Если будет применена сегментация, для каждого сегмента нужно создать отдельное текстовое поле.

Рекомендуем для каждого сегмента, из которого будут извлекаться сущности, использовать следующие настройки:

  • создать неповторяемое поле в повторяющейся группе;
  • в свойствах поля выбрать опцию Текстовый сегмент;
  • выбрать опцию Разрешить несколько регионов, если сегмент может начинаться на одной странице, а заканчиваться на другой.

Создание NLP-модели сегментации

Сегментация повышает точность и скорость извлечения сущностей, но не является обязательным шагом. Для сегментации документа создается NLP-модель специального типа.
Внимание! В каждом разделе документа может быть только одна модель сегментации.

Для создания модели сегментации:

  1. В Редакторе определения документа нажмите правой кнопкой мыши на название раздела документа.
  2. Выберите пункт Свойства....
  3. В открывшемся окне перейдите на вкладку NLP и нажмите кнопку Создать....
  4. Укажите Название новой NLP-модели например, SegmentationModel.
  5. Выберите тип модели Сегментация.
  6. Выберите Язык.

    Создание NLP-модели сегментации

  1. Нажмите Далее....
  2. В открывшемся окне укажите все поля, в которые будут извлекаться сегменты.
  3. Нажмите ОК.

После создания NLP-модели сегментации ее необходимо обучить на целевых документах.

Замечание. Опция Разрешить обучение включена по умолчанию. Это означает, что NLP-модель будет обучаться во время обработки документов. Для этого надо запустить обучение на Пакете обучения извлечения полей. Результаты обучения могут быть отключены или удалены. Для этого выберите опцию Отключено или Удалить из контекстного меню нужного пакета.

Создание NLP-модели для извлечения сущностей

Основной шаг – это извлечение сущностей. Для этого используются NLP-модели, обученные на размеченных вручную документах. Чтобы создать NLP-модель:

  1. В Редакторе определения документа откройте свойства раздела документа и перейдите на вкладку NLP.
  2. Нажмите Создать....
  3. Укажите Название новой NLP-модели, например, EntitiesExtraction.
  4. В качестве источника данных выберите раздел документа. Если в документе применяется сегментирование, то источниками данных для конечных сущностей могут быть сегменты. В таком случае – выберите сегмент.
  5. Выберите Тип модели Извлечение.
  6. Выберите Язык.
  7. Нажмите Далее....
  8. Выберите результирующие поля, которые будут извлекаться из данного раздела документа или сегмента.

Повторите шаги 1-9 для каждого сегмента или раздела документа, из которого надо извлекать сущности.

  1. Сохраните определение документа: Определение документа > Сохранить.
  2. Закройте редактор определения документа, выберите пункт меню Определение документа > Закрыть.
  3. Опубликуйте определение документа. Для этого нажмите в окне Определения документа > Опубликовать.

Определение документа готово к использованию.

После создания NLP-модели извлечения ее необходимо обучить на целевых документах.

Замечание. Опция Разрешить обучение включена по умолчанию. Это означает, что NLP-модель будет обучаться во время обработки документов. Для этого надо запустить обучение на Пакете обучения извлечения полей. Результаты обучения могут быть отключены или удалены. Для этого выберите опцию Отключено или Удалить из контекстного меню нужного пакета.

14.01.2021 14:17:24


Please leave your feedback about this article