Russian (Русский) - Change language

Формирование и оценка гипотез для элемента White Gap

Формирование гипотез элемента White Gap ведется с помощью построения гистограммы объектов.

По умолчанию просвет ищется среди объектов типа Raw Text. Чтобы найти просвет среди объектов другого типа (например, разделителях), нужно написать соответствующее условие поиска в диалоге свойств элемента White Gap на вкладке Advanced в поле Advanced pre-search relations. Например, если необходимо найти просвет в области, в которой встречаются объекты всех типов, надо написать выражение Type: PictureObject + SeparatorObject+ AnyText + PunctuationMark + CheckMarkObject;.

Построение гистограммы

Поиск гипотез просвета ведется на основе суммарной проекции всех объектов заданного типа, пересекающих область поиска элемента, на горизонтальную или вертикальную ось. При поиске вертикального просвета строится проекция на горизонтальную ось, при поиске горизонтального - на вертикальную ось. В проекцию добавляется соответствующий линейный размер (высота или ширина) каждого объекта заданного типа. Например, при поиске вертикального просвета в текстовых объектах суммируются высоты всех текстовых объектов, находящихся над заданной точкой горизонтальной оси и пересекающихся с областью поиска элемента.

В построенном профиле ищутся участки, высота профиля на которых ниже заданного уровня. По смыслу эти участки соответствуют областям, где число объектов невелико (из-за этого и уровень профиля низок). Наличие небольшого числа объектов внутри гипотезы допускается потому, что на реальном изображении зачастую присутствует фон из случайных мусорных объектов, которые не нужно принимать во внимание при поиске просветов между колонками, абзацами или другими фрагментами изображения. При этом вклад фоновых объектов в общий профиль невелик.

Например, пусть в области поиска находятся текстовые объекты H1, H2, ..., H9. На рисунке, приведенном ниже, эти объекты показаны черным цветом. Пусть также в области поиска присутствуют объекты других типов, они показаны красным.

Для нахождения вертикального просвета найдем суммарную проекцию высот текстовых объектов на горизонтальную ось. Построенная гистограмма приведена на рисунке ниже. Видно, что нетекстовые объекты при построении гистограммы не учитывались.

Далее находится максимальный уровень гистограммы (на рис. Max). Значение максимального уровня умножается на значение, заданное в свойстве Threshold coefficient (%) (K=0.2). Получаем максимально допустимый уровень просвета (на рис. White Gap threshold). Если полученное значение White Gap threshold >0, то в области просвета допускается наличие посторонних объектов.

После вычисления максимально допустимого уровня просвета, его значение сравнивается со значениями свойств Lower threshold limit и Upper threshold limit. Если White Gap threshold < Lower threshold limit, то свойству White Gap threshold присваивается значение Lower threshold limit, и именно это значение будут использовано для нахождения просвета. Если White Gap threshold > Upper threshold limit, то , то свойству White Gap threshold присваивается значение Upper threshold limit.

Затем выполняется сравнение высот участков гистограммы со значением White Gap threshold, и находятся участки, на которых уровень гистограммы ниже уровня White Gap threshold.

Свойство Min width /height позволяет задать минимальную абсолютную ширину просвета. Если для него выбрать значение W2, две другие гипотезы рассматриваться не будут.

Сформированная гипотеза элемента White Gap имеет следующие свойства:

Свойство Описание
Element name Указывается полное имя элемента.
Page Указывается номер страницы, на которой был найден элемент.
Surrounding rect Указываются координаты описывающего прямоугольника, содержащего регион гипотезы.
Width Ширина региона гипотезы.
Height Высота региона гипотезы.
Orientation Указывается направление найденного просвета.
Histogram maximum in search area Указывается максимальный уровень гистограммы в области поиска.
White Gap threshold Указывается вычисленный максимально допустимый уровень гистограммы, при котором просвет будет считаться найденным.
Histogram maximum within hypothesis Указывается максимальный уровень гистограммы в области гипотезы просвета.
Detected Указывается, был ли найден элемент (True) или нулевая гипотеза (False).
From the best path Указывается, принадлежит ли найденная гипотеза к лучшему пути в дереве гипотез (True) или нет (False).
Pre-search quality Указывается качество гипотезы, с которым она удовлетворяет свойствам элемента, заданным явно или с помощью Advanced pre-search relations.
Post-search quality Указывается качество гипотезы, с которым она удовлетворяет условиям, заданным с помощью Advanced post-search relations.
Chain quality Указывается текущее качество участка цепочки поиска от первого подэлемента текущей группы до данного включительно. Качество цепочки вычисляется перемножением качеств всех подэлементов цепочки. Данный показатель позволяет сравнивать конкурирующие цепочки между собой.

Подробнее:

Свойства элемента White Gap, задающие параметры искомого объекта

Область поиска элемента

Дополнительные условия поиска

10.11.2020 12:08:08


Please leave your feedback about this article