Russian (Русский) - Change language

Гибкие формы и их обработка

Форма - это документ, состоящий из одной или нескольких страниц и предназначенный для заполнения человеком от руки или любым печатным способом. Для удобства заполнения и обработки на форме размечаются поля для ввода данных, рядом с полями располагаются поясняющие заголовки.

Формы, все бланки которых имеют одинаковое расположение и количество полей, называют жесткими формами. Для обработки жестких форм применяют системы потокового ввода документов, в которых выполняется распознавание данных формы и передача этих данных во внешние приложения (базы данных, системы документооборота, системы архивирования). Распознавание и извлечение данных из форм становятся возможным благодаря применению определения документа – описания расположения полей формы с указанием типов данных, содержащихся в полях, и правил проверки результатов распознавания. Данное описание применимо ко всем жестким формам одного типа. Определение документа четко указывает системе потокового ввода форм расположение и тип данных формы, устраняя тем самым необходимость поиска данных и ошибки интерпретации.

Однако среди множества документов, требующих автоматизированного ввода, имеется большое количество форм, содержащих схожие данные, но имеющих нестрогую структуру организации этих данных внутри формы.

Ярким примером гибких форм являются разнообразные платежные документы. Поля для ввода данных на таких формах явно указаны, но их расположение и размеры обычно не фиксированы. Причем на различных документах возможно различное расположение полей относительно друг друга. Также важной особенностью таких форм является непостоянное количество полей. Например, на части документов может отсутствовать поле для ввода подписи, а на других присутствовать дополнительные элементы оформления, такие как линии, отступы или картинки.

Другой характерный пример гибких форм - это письма, нотариальные документы или регистрационные формы (заявления о приеме в институт и т.п.). Эти формы имеют повторяющуюся или схожую структуру расположения данных, при этом поля на таких формах строго не указаны. Так письма содержат в заголовочной части: имя и адрес отправителя, имя и адрес получателя. Нотариальные документы - некоторые характерные реквизиты, такие как номер и дата заключения договора, фамилии участников договора и т.п.

Из-за того, что наличие и расположение полей на формах заранее неизвестно, становится невозможным создание определения документа. Это приводит к тому, что хотя формы и могут быть распознаны (т.е. переведены в электронный вид, а их текст можно редактировать), автоматически извлечь данные из них невозможно. Система потокового ввода не может самостоятельно найти нужную информацию.

ABBYY FlexiLayout Studio позволяет создать описание структуры документов и задать алгоритм поиска распознаваемых полей гибких форм на основе дополнительной информации, например, о расположении поля относительно других полей или о характере данных, которые могут быть в поле и т.п., а также настроить гибкое описание на реальных изображениях.

Гибкое описание FlexiLayout, созданное в программе ABBYY FlexiLayout Studio, затем передается в систему ввода форм (ABBYY FlexiCapture), где на его основе создается определение документа. Технология ABBYY FlexiCapture предоставляет широкие возможности по автоматизированному вводу форм различных видов. Используя эту технологию распознавания форм, вы можете автоматизировать процесс ввода практически любых документов, как стандартных, так и гибких форм.

01.12.2020 7:04:05


Please leave your feedback about this article