Russian (Русский) - Change language

Глоссарий

A-Z

NER (Named-Entity Recognition, распознавание именованных сущностей)

Задача извлечения информации, основанная на поиске сущностей в неструктурированном тексте и их классификации по определенным категориям.

NLP (Natural Language Processing, обработка естественного языка)

Общее направление искусственного интеллекта и математической лингвистики. Изучает проблемы компьютерного анализа и синтеза естественных языков. Одним из примеров практического применения является извлечение значимой информации из текстов. Включает в себя: машинный перевод, чат-боты, классификацию, анализ тональности, извлечение данных и т. д.

NLP-модель

Механизм, определяющий, какие сущности и сегменты будут извлечены из текста документа и каким образом. Предметная область текста и алгоритм извлечения определяются при обучении модели.

Д

Документ

Совокупность одного или нескольких изображений страниц и извлеченной из них информации.

О

Определение документа

Определение документа определяет принципы, по которым будет происходить идентификация и обработка документов данного типа, и содержит:

  • Структуру документа, т.е. описание допустимой последовательности страниц, которая образует документ данного типа. Структура документа задает правило сборки документа.
  • Описания разделов документа.
  • Список правил, которым должны удовлетворять данные полей.
  • Расположение полей и подписей к ним в окне "Данные" (вид формы данных).
  • Настройки экспорта для документов данного типа.
  • Настройки процесса обработки документов данного типа.

П

Поле

Элемент документа, предназначенный для извлечения данных. Поля могут быть простыми или составными, как, например, поле типа «таблица», где каждая ячейка также может рассматриваться как отдельное «дочернее» поле таблицы.

С

Сегмент

Область документа, состоящая из одного или нескольких абзацев. Используется для сужения области поиска сущностей. Так же может являться полем, которое необходимо извлекать, например, условия прекращения контракта.

Сегментация

Этап, предваряющий извлечение целевой информации в тексте. Позволяет определить расположение значимой информации в объемном тексте с точностью до абзаца. В результате поиск сущностей производится не во всем исходном объеме документа, а только в его части - сегменте.

Сущность

Поле или группа полей, содержащая значимую информацию, которую необходимо извлечь из текста при помощи методов NLP. Например, имена людей, названия компаний, местоположение, суммы, даты.

Т

Тип документа

Группа документов, обладающих общими признаками и имеющая самостоятельный смысл с точки зрения бизнес процесса. Например, инвойсы, контракты, паспорта.

3/15/2021 9:22:39 AM


Please leave your feedback about this article