白ギャップ要素の仮説
白ギャップ仮説が、候補オブジェクトのヒストグラムの作成によって、立ちます。
デフォルトでは、任意のテキストオブジェクトの間の白ギャップが検索されます。他の型のオブジェクトの間(区切りの間)で白ギャップを探すには、白ギャップ要素のプロパティダイアログボックスで(高度タブ、高度な検索前関係フィールド)対応する制限を書く必要があります。例えば、すべての型のオブジェクトが発生する可能性のある領域で白ギャップを見つける場合は、以下の式を記述します:Type:PictureObject + SeparatorObject+ AnyText + PunctuationMark + CheckMarkObject;.
ヒストグラムが以下のように作成されます:
検索領域で検出された特定の型のオブジェクトすべてが、縦軸または横軸で投影されます。オブジェクトの幅または高さの合計が計算されます。横ギャップを探す時、縦軸の投影が作成されます。縦ギャップを探す時、横軸の投影が作成されます。横ギャップを探す時、縦軸の投影が作成されます。所定のサイズの各オブジェクトの線形サイズが投影に追加されます。例えば、テキストオブジェクト間で縦の白ギャップを検索するために、横軸の特定の点の上にあり、要素の検索領域と交差する検索領域にあるすべてのテキストオブジェクトの高さの合計が計算されます。
次に、ヒストグラムの高さが特定の値よりも小さい区域が検索されます。これらの区域は、オブジェクトの数が比較的少なく、その投影が事前定義された値よりも小さい領域に対応します。実際の画像には、スキャン中に斑点やその他のノイズが含まれていることが多く、それらは列または段落の隙間の検索時に無視されなくてはいけないため、白ギャップには一定数のオブジェクトが許容されなければいけません。バックグラウンドのノイズはプロファイル全体に大きな影響を及ぼしません。
検索領域にテキストオブジェクトH1、H2、...、H9があるとします。以下の図で、これらのオブジェクトは黒色で強調表示されています。検索に他の型のオブジェクトが含まれるようにします(赤色で強調表示)。
縦の白ギャップの検索では、横軸のテキストオブジェクトの投影を合計する必要があります。結果のヒストグラムは以下の通りです。非テキストオブジェクトがヒストグラムで無視されているのがわかります。
次に、ヒストグラムの最大値を探します(図で最大とマーク)。最大水準の値には、次に、閾値係数(%)で設定された値(K=0.2)が乗算されます。結果が、白ギャップの最大許容水準です(図で白ギャップ閾値とマーク)。結果が余白しきい値 >0の場合、他のオブジェクトが白ギャップの領域に存在するかもしれません。
白ギャップ閾値が計算されると、下限閾値および上限閾値で設定された値と比較されます。白ギャップ閾値 < 下限閾値の場合、白ギャップ閾値には下限閾値の値が割り当てられ、この値は白ギャップの検索に使用されます。白ギャップ閾値 > 上限閾値の場合、白ギャップ閾値には 上限閾値の値が割り当てられます。
次に、ヒストグラムの高さが余白しきい値と比較され、ヒストグラムの水準が余白しきい値以下の領域が検索されます。
最小幅/高さプロパティで、白ギャップの最小絶対幅が設定されます。値がW2の場合、他の2つの仮説は破棄されます。
白ギャップ仮説には以下のプロパティがあります:
プロパティ | 記述 |
要素名 | 要素の完全な名前。 |
ページ | 要素が検出されたページの番号。 |
矩形囲み | 仮説区域周囲の矩形の座標。 |
幅 | 仮説区域の幅。 |
高さ | 仮説の区域の高さ。 |
方向 | 検出された白ギャップの向き。 |
検索エリアのヒストグラムの最大 | 検索領域のヒストグラムのピーク。 |
余白しきい値 | 下のヒストグラムの点で、白ギャップ仮説が立ち始めます。 |
仮説内のヒストグラム最大 | 仮説内のヒストグラム最大値のピーク。 |
検出済み | 要素で記述されたオブジェクトが見つかった(true)かまたは帰無仮説が立った(false)かを示します。 |
最良パスから | 仮説が仮説ツリーの最善パスに属する(true)か否か(false)を示します。 |
検索前品質 | 仮説がどれほど、プロパティダイアログの設定によってまたは高度な検索前関係のコードによって指定された要素のプロパティに合致しているかです。 |
検索後品質 | 高度な検索後関係フィールドの条件が適用された後の仮説の質。 |
チェーンの品質 | グループの最初のサブ要素から現在のサブ要素までの仮説連鎖の質。連鎖の質は、連鎖のすべてのサブ要素の質を乗算して計算され、ライバルの仮説連鎖の比較に使用されます。 |
詳細:
12.04.2024 18:16:07