Russian (Русский) - Change language

Формирование и оценка гипотез для элемента типа Character String

Если в свойствах элемента задано регулярное выражение, то в области поиска ищутся все строки, удовлетворяющие данному регулярному выражению. Если же регулярное выражение не задано, то построение гипотез ведется на основе заданных алфавитов.

При формировании гипотез рассматриваются все текстовые объекты, пересекающие область поиска по горизонтали (по вертикали объекты должны попадать в область поиска целиком). Из текстовых объектов начинают строиться строки. Построение строки ведется слева направо и прекращается при превышении заданной допустимой длины пробела, выбранной в свойстве Max space length.

В полученных строках выделяются последовательности символов, каждая из которых принадлежит только одному из заданных алфавитов. Также происходит деление строк на фрагменты.

Из полученных фрагментов формируются гипотезы. Формирование может происходить по двум различным принципам, в зависимости от выбора опции Allow embedded hypotheses.

Предположим, на предыдущем этапе было сформировано три фрагмента. Если опция Allow embedded hypotheses выбрана, то гипотезы строятся следующим образом:

гипотеза 1: фрагмент 1

гипотеза 2: фрагмент 1 + фрагмент 2

гипотеза 3: фрагмент 1 + фрагмент 2 + фрагмент 3

гипотеза 4: фрагмент 2

гипотеза 5: фрагмент 2 + фрагмент 3

гипотеза 6: фрагмент 3

Для каждой гипотезы проверяется, что в ее составе доля каждого из заданных алфавитов не превышает заданную в параметре Percentage of alphabet characters. Также проверяется, что не превышена заданная в параметре Percentage of non-alphabet characters доля символов, не входящих ни в один из алфавитов. Если для некоторой гипотезы не выполняется хотя бы одна из проверок, гипотеза не создается.

Если опция Allow embedded hypotheses не выбрана, то из перечисленных выше гипотез будут отброшены вложенные. Иными словами, те, которые входят целиком в какую-нибудь другую гипотезу из списка. Если проверки выполнились на всех гипотезах, то в итоге останется только одна гипотеза: фрагмент 1 + фрагмент 2 + фрагмент 3.

Таким образом, если опция Allow embedded hypotheses не выбрана, создаются гипотезы максимальной длины, удовлетворяющие всем условиям. Хотя вложенные гипотезы при этом исключаются, пересечение гипотез возможно. Это может быть отдельно стоящий символ или слово, или даже последовательность слов, которые входят в несколько гипотез, но не выделяются в отдельные гипотезы. Т.е., например, могут быть сформированы две строки (гипотезы): одна заканчивается на некоторое слово (фразу), а другая с него (нее) начинается.

Пример:

гипотеза 1: фрагмент 1 + фрагмент 2

гипотеза 2: фрагмент 2 + фрагмент 3

После формирования всех возможных гипотез происходит вычисление оценки качества Pre-search quality каждой из них (т.е. оценки, насколько хорошо гипотеза удовлетворяет параметрам поиска, заданным в диалоге свойств на вкладке типа элемента и на вкладке Advanced в разделе Advanced pre-search relations). На данном этапе вычисление Pre-search оценки качества осуществляется на основе попадания длины гипотезы в символах в нечеткий интервал, заданный в свойстве Character count , проверки попадания длины суммарного пробела в строке в нечеткий интервал, заданный параметром TotalGapLength, и проверки попадания количества слов в строке в нечеткий интервал, заданный в свойстве Word count.

Общая оценка гипотезы элемента получается перемножением всех оценок.

Сформированная гипотеза элемента Character String имеет следующие свойства:

Свойство Описание
Element name Указывается полное имя элемента.
Page Указывается номер страницы, на которой был найден элемент.
Surrounding rect Указываются координаты описывающего прямоугольника, содержащего регион гипотезы.
Width Ширина региона гипотезы.
Height Высота региона гипотезы.
Text Указывается последовательность символов, входящих в гипотезу.
Detected Указывается, был ли найден объект изображения, соответствующий элементу (True), или сформирована нулевая гипотеза (False).
From the best path Указывается, принадлежит ли найденная гипотеза к лучшему пути в дереве гипотез (True) или нет (False).
Pre-search quality Указывается качество гипотезы, с которым она удовлетворяет свойствам элемента, заданным явно или с помощью Advanced pre-search relations.
Post-search quality Указывается качество гипотезы, с которым она удовлетворяет условиям, заданным с помощью Advanced post-search relations.
Chain quality Указывается текущее качество участка цепочки поиска от первого подэлемента текущей группы до данного включительно. Качество цепочки вычисляется перемножением качеств всех подэлементов цепочки. Данный показатель позволяет сравнивать конкурирующие цепочки между собой.

Подробнее:

Свойства элемента Character String, задающие параметры искомого объекта

Область поиска элемента

Дополнительные условия поиска

10/9/2020 8:50:48 AM


Please leave your feedback about this article