Russian (Русский) - Change language

Static text

Static Text - это элемент гибкого описания, позволяющий найти заранее известный текст. Текст может состоять из одного слова, а может содержать фразу, состоящую из нескольких слов. Фраза отличается от слова тем, что внутри нее есть хотя бы один пробел, при этом фраза может располагаться на нескольких строках.

В дереве элемент Static Text отображается значком .

При поиске элемента рассматриваются объекты Recognized Words и Recognized Lines, найденные при предраспознавании изображений и находящиеся в области поиска элемента.

Как правило, на всех или многих изображениях пакета имеется статический текст. Например, это может быть название документа («Накладная») или пояснительные надписи к полям ввода информации, такие как «Дата», «Получатель». Такие объекты изображения определяются при предраспознавании как объекты Recognized Words и обычно служат отправной точкой для поиска введенного в соответствующие им поля произвольного текста (т.е. рядом со статическим текстом «Дата», обычно, справа, можно искать реальную введенную дату).

Свойства элемента, задающие параметры искомого объекта

Свойства, определяющие параметры искомого объекта, задаются в диалоге свойств элемента на вкладке Static Text. Для того чтобы открыть диалог свойств элемента, щелкните правой кнопкой мыши по элементу в окне FlexiLayout и выберите в контекстном меню команду Properties....

Показать диалог Properties, вкладка Static Text

  • Search text - текст, который будет искаться на изображении.
    Если нужно найти фразу из нескольких слов, причем известно, что располагаться они всегда будут на одной строке, то лучше не учитывать пробелы при поиске, то есть не отмечать опцию Take spaces into account, это ускорит поиск. Можно сразу вводить фразу без пробелов, они в любом случае будут удалены, если не отмечена опция Take spaces into account.
Пример. Для поиска заголовка "Договор купли-продажи", располагающегося на всех формах на одной строке, нужно ввести ДОГОВОРКУПЛИ-ПРОДАЖИ.

Варианты слов разделяются вертикальной чертой (символом «|»).

Пример. На однотипных формах есть разные заголовки "Договор", "Контракт", "Соглашение", в этом случае для нахождения заголовка формы необходимо в качестве искомого текста следует указать: ДОГОВОР|КОНТРАКТ|СОГЛАШЕНИЕ.

Варианты фраз берутся в фигурные скобки и разделяются вертикальной чертой ({ }|{ }). Внутри фраз допустимо перечисление вариантов слов. (При этом должна быть отмечена опция Take spaces into account).

Пример. Если в поле Search text.казать "{ДОГОВОР|КОНТРАКТ АРЕНДЫ|ЗАЛОГА}|{ЗАЯВЛЕНИЕ КЛИЕНТА|ПАРТНЕРА}, то будет выполнен поиск следующих фраз: договор аренды, договор залога, контракт аренды, контракт залога, заявление клиента, заявление партнера.

Для удобства ввода длинных строк воспользуйтесь отдельным окном, которое открывается при нажатии кнопки .

  • Search text from database - на изображении можно искать текст из базы данных. Поиск нужных полей в таблице базы данных производится с помощью SQL-запроса, начинающегося с команды SELECT. На изображении будет производиться поиск текста, содержащегося в найденном поле.
    • Введите строку соединения с базой данных в поле Connection string или воспользуйтесь кнопкой , чтобы открыть стандартный диалог настройки соединения с БД.
    • В поле Query text введите запрос. Для удобства ввода запроса воспользуйтесь отдельным окном, которое открывается при нажатии кнопки .
  • Search text from file - можно также производить поиск текста из файла. Укажите нужный файл, используя кнопку Browse....
    Подробнее об использовании баз данных и файлов см. Использование баз данных и текстовых файлов в языке гибких описаний.
  • Max number of errors - максимально допустимое абсолютное число ошибок в слове. Данный параметр задается для отдельного слова фразы (если фраза разделена пробелами, в противном случае фраза считается одним словом). Если при наложении гибкого описания количество ошибок в найденном слове превышает максимально допустимое, то считается, что слово не удовлетворяет параметрам поиска. Число ошибок вычисляется как число операций удаления, вставки и замены символа в найденном тексте, требующиеся для того, что привести найденный текст к искомому (указанному в поле Search text).
    По умолчанию значение данного свойства не ограничено.
Пример. Если в поле Search text.введено слово "мама", а максимально допустимое количество ошибок в слове - 1, то при нахождении слова "папа" в области поиска количество ошибок в этом слове будут равно 2, и слово будет считаться ненайденным.
  • Max error percentage - максимально допустимое относительное число ошибок в слове (т.е. отношение числа ошибок в тексте гипотезы к числу букв в тексте гипотезы). Если относительное число ошибок в слове превышает максимально допустимое значение, слово считается ненайденным. По умолчанию равно 30%.
    Замечание. Из двух свойств, ограничивающих количество допустимых ошибок в слове, будет использовано то, которое задает более строгое ограничение на результаты поиска текста.
  • Max space length - позволяет указать максимально допустимую абсолютную длину пробела внутри найденного объекта.
  • Whole words only - при выборе данной опции будет выполнен поиск только целых слов.
  • Match case - при выборе данной опции поиск слов будет производиться с учетом регистра (будут различаться заглавные и строчные буквы).
  • Take spaces into account - выбор данной опции указывает на то, что при поиске должны учитываться пробелы. Если опция не отмечена, то пробелы будут удалены из искомого текста. Для ускорения поиска пробелы лучше не учитывать. Однако, если фраза может располагаться на нескольких строках, или вам необходимо допустить возможность пропуска слов, то искомая фраза должна быть введена с пробелами, а опция Take spaces into account - отмечена.

Следующие свойства в группе доступны, только если отмечена опция Take spaces into account:

  • Permit multiple lines - выбор данной опции делает допустимым переход фразы на новую строку.
  • Line break penalty - позволяет указать штраф за переход фразы на новую сроку. Значением свойства может быть число от 0 до 1. Качество гипотезы будет домножено на штраф столько раз, сколько раз фраза переходит на новую строку. Если же переход на новую строку допустим, то в качестве значения данного свойства следует выбрать 1, тогда умножение на штраф не будет приводить к ухудшению качества гипотезы.
  • Permit missing words - выбор данной опции делает допустимым отсутствие слова в фразе.
  • Missing word penalty - позволяет ввести штраф за отсутствие слова в фразе. Число от 0 до 1. Качество гипотезы будет домножено на штраф столько раз, сколько слов отсутствует во фразе. Если же отсутствие слова в фразе допустимо, то в качестве значения данного свойства следует выбрать 1, тогда умножение на штраф не приведет к ухудшению качества гипотезы.

Рекомендации по созданию элемента Static Text

Поскольку значение статического текста известно, элемент Static Text можно использовать в качестве опорного элемента для поиска других объектов изображений. При этом необходимо руководствоваться следующим:

  • Для того чтобы убедиться в том, что намеченный вами статический текст на всех тестовых изображениях распознается устойчиво, необходимо просмотреть результаты предраспознавания на всех изображениях (выбрав на панели инструментов кнопки или в зависимости от того, является ли статический текст словом или фразой).
  • Предпочтительно выбирать сравнительно крупный статический текст, чтобы практически при любом качестве отсканированного изображения его значение не менялось, или количество допустимых ошибок было бы более или менее предсказуемо.
  • Если на форме присутствует только мелкий статический текст, распознавание которого процедурой предраспознавания очень неустойчиво (т.е. количество и типы ошибок на разных изображениях значительно различаются), то такие участки текста имеет смысл искать не как элементы типа Static Text, а как элемент типа Object collection c отмеченными опциями Text , Punctuation mark , а возможно еще и Picture (это выявляется при просмотре результатов предраспознавания по нажатию кнопки (Raw Objects) на панели инструментов и выделении курсором соответствующего объекта изображения). При этом тип объекта отображается в строке DataType в окне Properties.
  • Предпочтительно выбирать участки статического текста с уникальным значением, чтобы предотвратить его ошибочное нахождение, или свести к минимуму написание дополнительных условий, ограничивающих область поиска с целью предотвращения ошибочной локализации текста.
  • Если на изображении одновременно встречаются односложные заголовки (которые предполагается искать с помощью элементов типа Static Text) и, фразы, в составе которых встречаются те же слова, что и в односложных заголовках, то для исключения неопределенности (т.е. ситуаций, при которых односложные заголовки могут находиться в составе фраз, а не как самостоятельные заголовки) рекомендуется сначала определять элементы для поиска более сложных заголовков. А односложные заголовки искать уже на основе найденных фраз.

Рекомендации для иероглифических языков

Для строк на китайском, японском и корейском языках можно использовать специальный параметр поиска, влияющий на подсчет числа ошибок в найденной гипотезе по сравнению с заданным значением статического текста. При использовании этого параметра в операции вставки/удаления/замены символа, каждая из которых расценивается как одна ошибка, в качестве символов, с которыми разрешена замена, разрешается использование только символов (иероглифов) с похожим начертанием. Таким образом, замена символа на похожий символ будет расцениваться как одна ошибка, а замена на непохожий символ - как две ошибки, так как в этом случае выполняются две операции: удаление символа и вставка.

Использование этого режима поиска влияет только на поиск строк на китайском, японском и корейском языках.

Замечание. Поиск по целым словам для таких строк невозможен, так как в указанных языках часто отсутствует явное деление текста на слова.

Для использования описанного режима поиска введите следующий код на панели Advanced pre-search relations вкладки Advanced:

SuggestOnlySimilarChars(Logic value = true);
    

По умолчанию параметр SuggestOnlySimilarChars имеет значение false.

См. также:

Создание, копирование и удаление элементов

Обзор свойств элементов гибкого описания FlexiLayout

Область поиска элемента

Дополнительные условия поиска элемента Static Text

11/10/2020 12:08:08 PM


Please leave your feedback about this article