Russian (Русский) - Change language

Нечеткий интервал

Нечеткий интервал  - инструмент, позволяющий оценивать качество гипотезы в зависимости от ее длины. Нечеткий интервал может измеряться в единицах расстояния (dots, миллиметры и т. д.) или символах (для строк). Нечеткий интервал задается с помощью четырех значений, которые определяют оптимальный и допустимый диапазоны значений.

Пусть задан нечеткий интервал {f1,f2,f3,f4}, а длина найденной цепочки в символах (или длина найденного пробела в dot) равна L. Если длина L находится в диапазоне от f2 до f3 (т.е. L>=f2 AND L<=f3), то множитель равен 1. При попадании длины в диапазон от f1 до f2 множитель изменяется линейно от 0 до 1 (Quality(f1) = 0, Quality(f2) = 1). Аналогично при попадании длины в диапазон от f3 до f4 множитель изменяется линейно от 1 до 0 (Quality(f3) = 1, Quality(f4) = 0). При непопадании длины в диапазон от f1 до f4 (т.е. при Lf4) множитель равен нулю (Quality(L) = 0). Качество найденной гипотезы умножается на результат вычисления функции, оценивающей попадание длины гипотезы в нечеткий интервал, заданный свойством  Character count.

Замечание. Качество любой цепочки, состоящей из гипотез нескольких элементов, вычисляется путем перемножения оценок качества гипотез элементов, входящих в цепочку. Если цепочка достаточно длинная (т.е. ветвь элементов  SearchElements гибкого описания содержит много элементов), а оценки качества входящих в нее гипотез, вследствие задания слишком жестких условий, низкие, то итоговая оценка качества цепочки всех элементов дерева может оказаться крайне низка.

Таким образом, нужно стремиться к тому, чтобы выбираемая гипотеза имела по возможности более высокую оценку качества. С другой стороны, нужно иметь возможность отличать гипотезы по качеству, чтобы выбрать лучшую. Поэтому нечеткие интервалы, представляющие собой математические функции для оценки качества гипотезы, следует настраивать так, чтобы приемлемые гипотезы штрафовались не очень сильно.

Допускается также использовать отрицательные значения для левой границы нечеткого интервала (хотя в реальности, конечно, строки с отрицательной длиной не существуют). Это может быть полезно для того, чтобы сделать более пологой прямую зависимости качества на интервале от 0 до 1, и таким образом уменьшить штраф, налагаемый на качество гипотезы. Если при этом нужно строго ограничить нижнюю границу данного параметра (например, длина строки не может быть меньше 10 символов, при этом нечеткий интервал для длины строки {-10,20,30,40}), то такое условие нужно написать дополнительно явным образом на вкладке Advanced диалога свойств элемента в поле Advanced post-search relations , указав Value.Length >= 10.

Вообще не рекомендуется задавать слишком жесткие границы интервала. Особенно это актуально при обработке изображений, среди которых могут попадаться изображения с разным качеством. Например, возможны ситуации, когда из-за неудовлетворительного качества исходного документа или из-за настроек сканирования в буквах встречаются пробелы. В этом случае один символ может восприниматься, как несколько, что при задании слишком жестких границ интервала может привести к резкому ухудшению оценки качества гипотезы, которая, по сути, является правильной, и выбору иной гипотезы. Поэтому, если важно делать окончательный выбор между гипотезами строк на основе их длин, это лучше делать, налагая дополнительные условия в поле Advanced post-search relations.

Редактор нечетких интервалов

Для упрощения задания нечеткого интервала в программе предусмотрен наглядный редактор нечеткого интервала. Редактор можно открыть из диалога свойств элемента Character String (вкладка Character String, кнопки ), а также из главного меню программы Tools → Fuzzy Interval Editor....

11/10/2020 12:08:08 PM


Please leave your feedback about this article