あいまい間隔
あいまい間隔は、その長さに基づいて仮説の質が評価されるツールです。長さの単位(ドット、ミリメートルなど)や文字(行の場合)であいまい間隔が測定されます。あいまい間隔では、最適かつ可能な値域を定義する4つの値を指定します。
あいまい間隔[f1、f2、f3、f4]があり、検出された文字列の長さ(または検出されたスペースの長さ)がLだとします。長さLがf2~f3の場合(L>=f2、L<=f3)、仮説の質は1です。長さがf1~f2の場合、仮説の質は正比例で0から1へと変化します(質(f1) = 0、質(f2) = 1)。同様に、長さがf3~f4の場合、仮説の質は正比例で1から0へと変化します(質(f3) = 1、質(f4) = 0)。長さがf1~f4(Lf4)に収まらない場合、仮説の質は0です(質(L) = 0)。検出されたオブジェクトの仮説の質は、文字カウントプロパティの値で乗算されます。このプロパティの値は、検出されたオブジェクトの長さに応じて選択されます。
注意:いくつかの要素の仮説連鎖の質は、各要素の仮説を乗算して算出されます。連鎖が比較的長く、制限が厳しすぎて構成仮説の推定品質値が低すぎる場合、連鎖全体の質は低すぎる可能性があります。
選択した仮説に、可能な限り最大の推定品質値があるようにします。一方で、最高の仮説を選択できるよう、仮説をその質で区別できるようにしなければいけません。許容可能な仮説に過度のペナルティが科せられないよう、あいまい間隔を設定します。
あいまい間隔の左境界に負の値を使用することもできます(負の長さの文字列は実際にはありませんが)。これで、0~1の質の依存性をよりなだらかにでき、ペナルティが軽減されるので、便利でしょう。同時に、このパラメータの下限を設定する必要がある場合(文字列の長さを10文字以下にできず、文字列の長さのあいまい間隔が[-10、20、30、40]など)、高度な検索後関係ペインでValue.Length >= 10と入力して高度タブで直接行うことができます。
一般的には、厳しすぎる間隔は設定しない方がいいです。これは、異なる質の画像を処理する場合に、特に重要です。ソース文書の質が悪いまたはスキャンオプションが悪いことが原因で、文字にスペースのある画像も存在します。こうなると、1文字が複数の文字と解釈される可能性があり、あいまい間隔が厳しすぎれば仮説の質を大きく低下させます。結果として、仮説が本当は正しいのに破棄されてしまい、別の仮説が選択されるのです。これを理由に、文字列仮説を文字列の長さの比較で選択する場合は、高度な検索後関係ペインで追加的な制限を指定するといいです。
あいまい間隔ビジュアルエディタ
ABBYY FlexiLayout Studioには、あいまい間隔の指定を簡単にするビジュアルエディタがあります。あいまい間隔エディタは、文字列要素のプロパティダイアログボックスから(文字列タブ、ボタン)またはツール → あいまい間隔エディタ...と選択してメインメニューから、開くことができます。
12.04.2024 18:16:07