Russian (Русский) - Change language

Создание определений для неструктурированных и частично структурированных документов

Если вам нужно обрабатывать документы, содержащие информацию, изложенную в свободном стиле, например, контракты, письма, приказы, приложения, то и в этом случае поможет ABBYY FlexiCapture. Такие документы с текстом или изображениями, разделенные пустыми страницами или страницами со штрих-кодом, обрабатываются и экспортируются в PDF файлы с возможностью поиска или в файлы графических форматов.

Обработка таких документов обычно состоит в том, чтобы перевести документы в электронный вид и организовать их поиск по значениям ключевых полей.

Если возможно, поиск ключевых полей (например, номер контракта) на таких документах производится с помощью гибкого описания, созданного в приложении ABBYY FlexiLayout Studio. См. Создание определения для обработки гибких документов.

Для обработки неструктурированных документов можно применять технологию NLP. Эта технология использует NLP-модели для извлечения информации из текста.

Если автоматический поиск ключевых полей невозможен, то их значения могут вводиться вручную оператором. Для этого создайте определение документа с одним полем (или с несколькими полями, если нужно), и в свойствах распознавания этого поля (полей) отметьте опцию Не распознавать значение поля, оно будет введено вручную. В этом случае при запуске процесса верификации оператору будет предложено ввести значения ключевых полей вручную.

Для хранения документов нужно настроить экспорт: значения ключевых полей вы можете экспортировать в файл или базу данных, а изображения документов сохранить в удобном для вас формате. Вы можете сохранять изображения документов в графических файлах или в PDF с возможностью поиска.

Обратите внимание на сборку страниц в документы: для неструктурированных документов бывает сложно определить, к какому документу относится та или иная страница. Для автоматизации сборки неструктурированных документов рекомендуется разделять документы чистыми страницами или страницами со штрих-кодами. Тогда при добавлении изображений в пакет (путем сканирования, добавления из файлов или при создании профиля импорта) нужно отметить опцию Для изображений, разделенных и выбрать из выпадающего списка значение пустыми страницами или страницами со штрих-кодом в зависимости, от того, какие страницы используются в качестве разделителя. Сборка страниц в документы будет произведена автоматически: страницы будут добавляться в текущий документ, пока не встретится страница-разделитель. Подробнее см. Добавление изображений страниц.

14.01.2021 14:17:24


Please leave your feedback about this article