静的テキスト
静的テキストは、事前定義されたテキストを記述するFlexiLayoutの要素です。テキストは単語またはフレーズで構成されています。フレーズには少なくとも1つのスペースが含まれているため、単語とは異なります。フレーズは、複数行で書くことができます。
静的テキスト要素はFlexiLayoutツリーででマークされます。
静的テキスト要素によって、静的テキストすなわち既知のテキストが検索されます。事前認識中に検出され、要素の検索領域で静的テキスト候補として位置している認識単語および認識行オブジェクトが考慮されます。
通常、バッチのすべてまたは多くの画像には静的テキストが含まれます。これは文書見出し(請求書など)またはフィールド名(日付、先:、元:など)かもしれません。事前認識中に認識単語として検出されたそのようなオブジェクトは、対応するフィールドに入力されるテキストを探す時、通常、「標識」として使用されます: 例えば、静的テキスト「日付」の隣で日付を予期することは自然です。
静的テキスト要素のプロパティ
プロパティダイアログボックスのファイルからテキストを検索タブをクリックして、対応するオブジェクトを記述します。プロパティダイアログボックスを開くには、FlexiLayoutツリーで要素を右クリックし、ショートカットメニューからプロパティ...を選択します。
プロパティダイアログボックス、静的テキストタブを表示
- テキストを検索
画像で探すテキスト。
フレーズまたは複数の単語を検索する際にそれらが常に同じ行にあるとわかっている場合、スペースを無視して(つまりオプションスペースを考慮のチェックを外しておく)検索を迅速化させることをおすすめします。この場合、スペースなしで検索フレーズを入力することができます。スペースを考慮オプションが選択されていなければ、検索フレーズはどのみち削除されます。
例えば: | すべての文書で1行記載された名前「購入同意書」を探すには、PURCHASEAGREEMENTを入力する必要があります。 |
バリエーションの区切りに縦線(記号「|」)を使います。
例えば: | 同様の文書に契約書や同意書などの名前が付いている場合は、CONTRACT|AGREEMENTと入力する必要があります。 |
フレーズのバリエーションは、波括弧で囲まれ、縦線で区切られます:{ }|{ }.単語のバリエーションをフレーズ内にリストできます (スペースを考慮 オプションが選択されていなければなりません)。
例えば: | テキストを検索フィールドで{SALE|PURCHASE AGREEMENT|CONTRACT}|{CUSTOMER|CLIENT APPLICATION}を入力すると、以下のフレーズが検索されます: 販売同意書、購入同意書、販売契約、購入契約、カスタマーアプリケーション、クライアントアプリケーション。 |
長い文字列を入力するには、をクリックして別のデータ入力ウィンドウを開きます。
- データベースからテキストを検索
画像のデータベースからテキスト断片を検索することができます。SELECTコマンドで始まるSQLクエリは、表の関連フィールドの検索に使用されます。見つかったフィールドに含まれるテキストが画像で検索されます。 - 接続文字列フィールドにデータベース接続文字列を入力するか、をクリックして標準データベース接続ダイアログボックスを開きます。
- クエリをクエリテキストフィールドに入力します。をクリックして、別のデータ入力ウィンドウを開き、クエリを入力することもできます。
- ファイルからテキストを検索
ファイルからテキスト断片を検索することができます。閲覧...ボタンをクリックして、所望のファイルを選択します。データベースとファイルの使用の詳細については、FlexiLayout言語でのデータベースとテキストファイルの使用をご覧ください。 - 最大エラー数
- 単語の最大エラー数。フレーズの単語がスペースで区切られている場合、フレーズの各単語が確認されます。そうでない場合、フレーズには1単語しかないと見なされます。単語のエラー数がこのフィールドで指定されている数よりも多い場合、その単語は検出されなかったと見なされます。1つのエラーは、テキストを検索フィールドに入力されたテキストに対応するようテキストを調整するために必要な削除、貼り付け、または置換操作の1つに対応します。
デフォルトでは、このプロパティの値は無制限です。
例えば: | テキストを検索フィールドに「meet」という単語が含まれ、最大エラー数が1に設定されているとします。検索領域で「moot」という単語が見つかった場合、単語には2つのエラーがあり、「meet」という単語は見つからなかったと見なされます。 |
- 最大エラー割合
単語の最大エラー割合(仮説のエラー数と仮説の文字数の比率で計算)。単語のエラー割合がこのフィールドで指定されている割合よりも多い場合、その単語は検出されなかったと見なされます。デフォルト値は30%です。
注意:最大エラー数と最大エラー割合の両方を指定すると、より厳密な基準が使用されて、他のものは無視されます。 - 最大スペース長さ
検出されたオブジェクト内部のスペースの最大長さを指定できます。 - 単語全体限定
単語全体のみ検索します。 - 大文字小文字を区別して合致
大文字小文字を区別した検索が可能になります。 - スペースを考慮
検索文字列のスペースを許容します。このオプションが選択されていない場合、スペースは検索文字列から削除されます。スペースを無視すると検索が速くなります。ただし、検索フレーズが複数行にある場合またはフレーズの一部の単語が失われている場合は、スペースを考慮オプションを有効にしてスペースを守りながら検索フレーズを入力する必要があります。
このオプションは、スペースを考慮を選択した場合しか使用できません:
- 複数行を許可- フレーズを複数行に書き込むことができます。
- 改行ペナルティ- 改行単語にペナルティを設定します。ペナルティは0~1の数字です。仮説の質には、この数がフレーズにある改行の数分乗算されます。フレーズで改行が許容されている場合、このパラメータを1に設定します(仮説の質に1を乗算しても質は低下しません)。
- 単語なしを許可- フレーズで失われている単語を許容します。
- 単語なしペナルティ- 失われている単語にペナルティを設定します。ペナルティは0~1の数字です。仮説の質には、この数がフレーズにある失われた単語の数分乗算されます。フレーズで失われた単語が許容されている場合、このパラメータを1に設定します(仮説の質に1を乗算しても質は低下しません)。
静的テキスト要素の作成に関する推奨事項
静的テキストは事前にわかっているため、静的テキスト要素を他の画像オブジェクトを探すための参照要素として使用することができます。以下のガイドラインに従います:
- 選択された静的テキストがすべての画像で高い信頼性で認識されるようにするには、単語またはフレーズのまたはをクリックしてすべての画像の事前認識結果を表示します。文字が正しく単語にグループ化され、単語が正しく行にグループ化されていることを確認してください。
- スキャンの質が悪くても変わらない大きな文字で印刷された静的テキスト、またはOCRエラーが予測可能な状態で印刷された静的テキストを選択すると良いでしょう。
- 文書に小さな静的テキストの印刷しかなく、事前認識中に高い信頼性で認識できない(すなわちエラーの数および種類が画像によってかなり異なる)場合、そのテキスト断片は静的テキストではなく、オブジェクト収集として、テキストおよび句読点オプションが選択された状態で、記述する方が良いです。画像オプションも選択する必要があるかもしれません。ツールバーで(生のオブジェクト)をクリックして、画像の対応するオブジェクトを選択します。オブジェクトの種類は、プロパティウィンドウのDataType行に表示されます。)
- 間違った検出を防止し、追加の検索制限を最小限に抑えるために、一意の静的テキスト断片を選択することが好ましいです。
- 単一単語の名前(静的テキスト要素で検索する予定)と単一単語の名前と同じ単語を含むフレーズの名前の両方がある場合は、最初にフレーズの要素を作成します。これにより、フレーズ名内の単一単語の名前が間違って検出されることを防止できます。
象形文字言語の推奨事項
中国語、日本語、韓国語の文字列では、特別な検索パラメータが使用できます。パラメータは、指定のテキストを検索要素の値と比較して、見つかった仮説のエラー数を数える方法に影響を及ぼします。このパラメータを有効にすると、1つのエラーとして数えられる文字の挿入/削除/置換の操作で、同様の跡のある文字(象形文字)のみが置換文字として許容されます。従って、文字を類似の文字で置換することが1つのエラーとして数えられ、異なる文字で置換するのは2つのエラーとしてカウントされます。文字を削除して新しい文字を挿入する2つの操作であるためです。
この検索モードを有効にすると、中国語、日本語、韓国語の文字列の検索のみに影響を及ぼします。
注意:これらの言語では、テキストが明確に分割されないことが多いため、単語全体の検索は使用できません。
この検索モードを有効にするには、以下のコードを高度タブの高度な検索前関係ペインに入力します:
SuggestOnlySimilarChars(Logic value = true);
デフォルトでは、SuggestOnlySimilarCharsパラメータは偽に設定されています。
以下もご参照ください:
12.04.2024 18:16:07