Russian (Русский) - Change language

Советы и рекомендации

В данном разделе приведено описание некоторых характерных приемов создания гибких описаний, которые можно использовать для поиска полей на изображениях низкого качества. На практике часто встречаются изображения с различными дефектами сканирования, вызванными некорректными настройками сканера. Например, изображение может быть слишком светлым или слишком темным, если при сканировании использовались неверные настройки яркости, и т.п. В результате часть информации на изображении может быть потеряна (засвечена), часть может быть покрыта так называемым «мусором», т.е. темными точками и штрихами.

Не всегда есть возможность пересканировать документы заново, зачастую необходимо извлекать информацию из поврежденных изображений. Кроме того, нередки ситуации, когда документы содержат надписи, сделанные от руки поверх полезной информации, из-за чего текст становится трудно прочесть.

Все описанные повреждения изображений приводят к ухудшению качества предраспознавания текста. Качество предраспознавания можно улучшить, выбрав полный режим распознавания (Thorough). Однако не во всех описанных ситуациях это может помочь, к тому же это увеличивает время обработки изображения.

При создании гибкого описания в FlexiLayout Studio обычно используется следующий подход. В гибком описании заранее предусматривается, что результаты предраспознавания могут быть неточными, т.е. несколько отличаться от написанного текста. Обычно этот факт уже учитывается в стандартных настройках элементов, как, например, допустимое число ошибок в элементе Static Text или доля неалфавитных символов в Character String. Вообще говоря, на этапе поиска полей хорошее качество предраспознавания не требуется. Хорошее качество необходимо при распознавании уже найденных полей в FlexiCapture, там для этого создаются специализированные типы данных на каждое отдельное поле, позволяющие существенно улучшить распознавание. Предраспознавание же в FlexiLayout Studio производится на всей странице одним и тем же языком распознавания, и, как показывает практика, этого обычно достаточно для поиска полей документа.

Как правило, в реальных проектах создание всего лишь нескольких элементов позволяет быстро получить работающий прототип гибкого описания, корректно обрабатывающий изображения хорошего качества. Таким образом, обычно можно быстро и легко создать версию гибкого описания, обеспечивающую поиск полей на ~70% изображений. Такое гибкое описание уже можно начинать использовать в FlexiCapture для ввода данных с изображений. Параллельно можно дорабатывать гибкое описание, обучая его извлекать информацию с изображений низкого качества. Тщательность доработки зависит от стоящей перед автором гибкого описания задачи и доступного времени.

Доработка гибкого описания включает в себя обнаружение элементов, не найденных на изображении, и попытку их найти при помощи дополнительных элементов (иногда другого типа), содержащих менее строгие параметры поиска.

Помимо описанных ситуаций, связанных с ошибками предраспознавания, встречаются и другие, в которых также требуется дополнительная доработка гибкого описания, включающая создание вспомогательных элементов. Зачастую при вводе форм приходится обрабатывать похожие жесткие формы, поступившие из разных источников. Примером могут служить формы, созданные в региональных отделениях государственных организаций, которые, несмотря на внешнее сходство, могут отличаться расположением или оформлением полей. В таких случаях часто бывает целесообразно создать одно гибкое описание вместо нескольких чуть отличающихся жестких форм.

Зачастую такие «жесткие» формы отличаются типами разметки поля, а иногда поля могут быть заполнены как печатным, так и рукописным текстом. При поиске таких полей данных применяются приемы, описанные в данной главе.

Проект FlexiLayout Studio, содержащий тестовые изображения и отлаженное гибкое описание, находится в %public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks.

Описание текстовых полей, содержащих буквы в рамках

Поиск даты в случае хорошего и плохого распознавания

Задание нескольких вариантов значений статического текста. Поиск статического текста со схожими значениями

Исключение элементов с помощью Exclude

Использование составных элементов для улучшения организации гибкого описания и поиска элементов

Задание значений для поиска однострочных элементов Static Text

Использование функции RestrictSearchArea для ограничения области поиска

Поиск однострочных полей фиксированного или произвольного формата при разном качестве распознавания

Использование функций Nearest и FuzzyQuality для поиска элементов

Оптимизация поиска составного элемента

Свойство Optional составного элемента

Поиск цифровых строк

Вспомогательный элемент с нулевой гипотезой – как средство упрощения гибкого описания

01.12.2020 7:04:05


Please leave your feedback about this article