Russian (Русский) - Change language

Использование скриптов извлечения

В некоторых случаях для достижения наилучшего результата наряду с NLP-моделью можно использовать скрипты извлечения:

  • Сложная структура расположения сущностей. Например, когда часть искомой информации находится в таблице, а другая часть – в текстовом поле. В этом случае для табличных полей лучше использовать скрипт.
  • Небольшое количество примеров, когда документов недостаточно для обучения NLP-модели.
  • Неудовлетворительное качество извлечения некоторых полей. Для таких полей можно попробовать настроить скрипт извлечения.

При использовании скриптов возможно:

  • Выделять в тексте документа интервалы, которые соответствуют:
    • регулярным выражениям, заданным пользователем,
    • словам или словосочетаниям из пользовательских словарей с поддержкой всех форм искомых слов и словосочетаний,
    • NER-объектам предустановленных типов:
      • Персоны (NerPerson),
      • Организации (NerOrg),
      • Локации (NerGeo),
      • Адреса (NerAddress),
      • Суммы (NerMoney),
      • Даты (NerDate).
        Обратите внимание, что объекты NerMoney и NerDate используются только в скриптах извлечения.
  • Выполнять запросы по тексту и найденным интервалам с поддержкой всех форм искомых слов и словосочетаний.
  • Сохранять в поля документа любые интервалы из текста.
  • Извлекать адрес и его компоненты из документа:
    • Индекс (NerZipCode),
    • Страну (NerCountry),
    • Штат (NerState),
    • Город (NerCity),
    • Улицу (NerStreet).

Для того, чтобы задать скрипт извлечения полей или подключить пользовательские словари:

  1. Откройте редактор определения документа.
  2. Откройте свойства раздела документа, для этого выделите раздел правой кнопкой мыши > Свойства… .
  3. Перейдите на вкладку NLP.
  4. В секции Скрипты извлечения нажмите Создать....
  5. В открывшемся меню Скрипт извлечения:
    • загрузите пользовательский словарь, используя кнопку Загрузить….
    • или откройте редактор скрипта при помощи кнопки Правка скрипта….

Замечание. Загружаемые пользовательские словари должны быть в кодировке UTF-8 with BOM или ANSI.

Извлечение компонентов адреса из документа

Для извлечения компонентов адреса необходимо:

  1. Задать область документа, в которой находится адрес.
    Рекомендуем ограничить область поиска, настроив соответствующее поле в гибком описании, и использовать эту область в качестве источника скрипта извлечения. Подробнее см. Задание области поиска.
    В составе одного адреса может быть только один экземпляр каждой из компонент: индекс, страна, штат, город и улица. Однако в результате применения скрипта извлечения может быть возвращено несколько экземпляров. Чем точнее определена область поиска адреса, тем меньше экземпляров будет возвращено.
  2. Применить соответствующий скрипт извлечения.
    Поиск компонентов адреса может производиться на всем поле или его части.

При выделении из адреса компонент методами ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) и ParseAddressInSpan( resultCollectionNamePrefix : string, span : IInterval ) каждое слово, входящее в состав выделенных компонент, получает при индексировании следующие атрибуты, которые могут быть использованы в xml-запросах:

  1. Имя коллекции, составленное как [resultCollectionNamePrefix]_[NerTypeOfComponent]
  2. Префикс resultCollectionNamePrefix 
  3. Тип NER-объекта.

Пример xml-запроса для извлечения адреса приведен ниже.

Замечание. Извлечение компонентов доступно только для немецких и американских адресов.

14.01.2021 14:17:24


Please leave your feedback about this article