Russian (Русский) - Change language

Обработка документов при помощи NLP

NLP (Natural Language Processing, обработка естественного языка) – общее направление искусственного интеллекта и математической лингвистики. Изучает проблемы компьютерного анализа и синтеза естественных языков. Одним из примеров практического применения является извлечение значимой информации из текстов.

Способ обработки документа зависит от его структуры. Документы бывают следующих типов:

  • Структурированные документы с набором выделенных информационных полей, оформление, количество и местоположение которых не меняются от одного экземпляра документа к другому, например, анкеты, опросники, заявления и т. д.
  • Частично структурированные - документы, содержащие набор полей, оформление, количество и расположение которых могут значительно отличаться в разных экземплярах документа. Эти документы называются гибкими. К примеру, счета являются гибкими документами, т. к. они часто отличаются как количеством позиций, так и форматированием, потому что они поступают от разных компаний.
  • Неструктурированные - документы содержат информацию, изложенную в свободном стиле, не содержат полей в явном виде. Например, контракты, письма, приказы. Сущности могут располагаться в любой части документа без ограничений.

Подробнее о типах документов см. Типы документов, обрабатываемых с помощью программы ABBYY FlexiCapture.

Технологию NLP следует применять для обработки неструктурированных документов. Например, из договора могут быть извлечены такие сущности, как номер договора, стороны договора, значимые даты (дата подписания, дата вступления в силу, срок действия договора, дата его окончания), информация о полной стоимости, периодических платежах, условиях оплаты и т.д.

Для извлечения данных из структурированных, частично структурированных документов и табличных частей документов лучше использовать другие инструменты, например, гибкие описания.

Процесс извлечения информации из текстов

Для извлечения информации из неструктурированных текстов в продуктах ABBYY используются NLP-модели. NLP-модель определяет, какие сущности будут извлечены из текста документа. Предметная область текста и алгоритм извлечения определяются при обучении модели на примерах ваших документов. Это позволяет более эффективно извлекать необходимую информацию. Сложность создания NLP-модели зависит от вариативности документов, количества контекста, сложности и количества извлекаемой информации.

Извлечение данных из неструктурированных текстов - ресурсоемкая задача с точки зрения вычислительных мощностей. Чем больше текст, который нужно анализировать, тем больше времени занимает извлечение информации.

Часто расположение значимой информации в объемном тексте можно локализовать с точностью до страницы или абзаца. Процесс вычленения отдельных участков из целого текста называется сегментацией и требует значительно меньше ресурсов и времени, чем извлечение сущностей.

Сегментация – это этап, который может предварять извлечение целевой информации в тексте. Она позволяет искать сущности не во всем исходном документе, а только в его части. Такой подход призван значительно сократить общее время на поиск данных в тексте. Подробнее про создание модели сегментации см.  Создание NLP-модели сегментации

Для обработки неструктурированных документов при помощи NLP необходимо:

  1. Установить модуль NLP;
  2. Создать определение документа;
  3. Создать и обучить NLP-модель;
  4. Или подключить готовую NLP-модель к определению документа.

1/14/2021 2:17:24 PM


Please leave your feedback about this article