サンプル1。ステップ7:文書識別子の作成
ABBYY FlexiCaptureで半構造化文書を処理する時に、現在の種類に属さない文書を除外したいと思うかもしれません。文書を識別する1つの方法は、少なくとも1つの要素を必須とマークすることです。必要とされる要素は、与えられた種類の全ての文書において一貫して検索されるはずです(そうでなければ、プログラムは文書とそのFlexiLayoutとを一致させられません)。
この場合、文書見出し(HALLOWEEN REGISTRATION FORM)で優れた識別子要素が作成されます。OCRエンジンで簡単に判読できる独特なテキストを含んでいるためです。
注意:あらかじめ定義された複合のヘッダー要素において識別子要素もしくは要素の集合を特定することができます(このチュートリアルでは記述されていません)。
文書見出しは与えられた種類に基づいて文書を識別することのみに使用されます。FlexiLayoutにおいて、種類静的テキストの要素として文書見出しを特定します。
ID要素を作成するには:
- メインウィンドウでFlexiLayoutタブをクリックします。
- FlexiLayoutツリーで選択SearchElementsを選択します。
- 静的テキストコマンドをFlexiLayout→要素を追加もしくは(新→静的テキスト)要素のショートカットメニューで選択します。
- 名前フィールドに、要素の名前を入力します。例えばIDHeader。
- 文書見出しは必須要素なので必須要素を全般タブ上で選択します。
表示...
- タブ静的テキストをクリックしてください。
表示...
- テキストを検索フィールドで、検索するテキストを入力します:HALLOWEEN REGISTRATION FORM
バッチの最初の画像で判断し、文書見出しが一行で書かれていると仮定できます。従って、1行の静的テキストを迅速に検索するためにスペースなしで見出しを入力することができます。 - 検出されたテキストに起こり得る最大エラー数を設定します(百分率点または数字で)。この場合は最大エラー割合を20に設定し、文書見出しの25文字に5のエラーを許容することをお勧めします。
注意:許容されるエラーの最適なパーセンテージは試行錯誤あるのみです。
12.04.2024 18:16:07