コツと裏技

質の低い画像でデータフィールドを探すFlexiLayoutsの、一般的な作成方法です。このような画像はかなり一般的で、異なるスキャン異常の主な原因は、間違ったスキャン設定です。例えば、明るさの設定が正しくないと、画像が明るすぎたり暗すぎたりします。結果として、画像の一部情報が失われたり、画像の一部にノイズが出たりします。

文書はいつでも再スキャンできるというわけではないので、破損したイメージからのデータ抽出を余儀なくされたりします。また、有益な情報の上に手書きのメモがあって、認識エラーになる文書もあります。

こういったテキストへの損傷のインスタンスにより、事前認識の質が悪くなります。事前認識の質の改善は、認識モードを正確に変えることでできるかもしれません。残念ながら、これは必ずしも機能せず、事前認識の時間を大幅に延長します。

FlexiLayout StudioでFlexiLayoutを作成する場合、通常、以下の方法が使用されます。FlexiLayoutで、事前認識結果が正しくない、すなわちソーステキストと異なる可能性があることを、明記できます。これは、要素の標準設定、例えば、種類静的テキストの要素の最大エラー数、または文字列要素の非アルファベット文字の割合に反映されます。データフィールドを検索する時、事前認識の高い質はそれほど必要ではありません。ですが、FlexiCaptureで検出されたフィールドが認識されている場合は、必要になります。各フィールドに特殊なデータがあり、認識の質が大きく向上します。FlexiLayout Studioでの事前認識はフルページOCRで、文書のデータフィールドを検出するのに十分であることが実証されています。

現実のプロジェクトでは、通常、質の良い画像を正常に処理できるFlexiLayoutを得るために、要素をいくつか作成するだけで十分です。誰でも簡単にFlexiLayoutを作成できます。FlexiLayoutは、画像の約70%で必要なデータフィールドを検出します。このようなFlexiLayoutはFlexiCaptureで使用できます。FlexiLayoutは更新可能で、質の悪い画像からデータを抽出するよう「教育」できます。そのような変更の度合いは、手持ちの作業や利用可能な時間に左右されます。

FlexiLayoutの変更には、前に検出されなかった要素の検出、あまり厳しくない検索制限の追加的な(または異なる種類の)要素を使用して要素を見つける試みが含まれます。

追加要素の作成を含め、FlexiLayoutを変更しなければならない他の状況もあります。例えば、国の機関の地方支所で作成された文書など、異なる場所から受け取った類似文書を処理しなければいいけないことがよくあります。こういった文書は、類似していても、データフィールドのレイアウトが違ったりします。このような場合は、若干差のあるFlexiCapture文書定義ではなく、1つのFlexiLayoutを作成することをおすすめします。

文書は区切りの種類で異なっていたり、手作業だけでなく、プリンターで記載されていたりします。このようなフィールドを検索するよう教育する場合は、ここの方法を使用します。

試験画像と試験されたFlexiLayoutを含むFlexiLayout Studioプロジェクトの場所%public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks。

質の低い事前認識での日付の検出

複数の静的テキスト値を設定します。類似の値のある静的テキストを検索

除外を使用した要素の除外

グループ要素を使用したFlexiLayoutの構造と検索の最適化

単一行の静的テキスト要素の検索

RestrictSearchAreaでの検索領域の制限

異なる質の文書で既知または未知の形式の単一行フィールドを検索

NearestとFuzzyQualityで要素検索

グループ要素検索の最適化

グループ要素のプロパティ「オプション」