印刷した文書に標準以外のフォントが含まれる場合

学習機能モードは、装飾的なフォントのある文書や、特殊文字 (数学記号など) を含む文書の OCR 品質を高めます。

注意:学習機能モードを他の場合に使用した場合は、学習機能に費やされる時間と努力と比較して認識品質の向上が微々たるものであるため、推奨されません。

学習機能モードでは、テキスト全体の OCR を実行する際に使用できるユーザー パターンが作成されます。

ユーザー パターンの使用

文書の認識にパターンを使用するには

  1. [オプション] ダイアログ ボックスを開いて ([ツール] > [オプション…])、[読み取り] タブをクリックします。
  2. [調整] の項目で、[ユーザー パターンのみを使用する] オプションを選択します。

注意:[ユーザー パターンとビルトイン パターンを使用する] を選択すると、ABBYY FineReader 12 では ユーザー パターンと、OCR の工場初期設定のパターンの両方が使用されます。

  1. [パターン エディタ…] ボタンをクリックします。
  2. [パターン エディタ] ダイアログ ボックスで、必要なパターンを選択して [OK] をクリックします。
  3. ABBYY FineReader のメイン ウィンドウで、[読み取り] ボタンをクリックします。

ユーザー パターンの作成および学習

ユーザー パターンの学習機能を使用して新しい文字と合字を認識するには

  1. [オプション] ダイアログ ボックスを開いて ([ツール] > [オプション…])、[読み取り] タブをクリックします。
  2. [調整] の項目で [ユーザー パターンとビルトイン パターンを使用する] または [ユーザー パターンのみを使用する] を選択します。
  3. [調整を伴う読み取り] オプションを選択します。
  4. [パターン エディタ…] ボタンをクリックします。

注意:アジア言語では、パターン学習機能はサポートされていません。

  1. [パターン エディタ] ダイアログ ボックスで、新規…をクリックします。
  2. [パターンの作成] ダイアログ ボックスが開きます。ユーザー パターンの名前を入力し、[OK] をクリックします。
  3. [パターン エディタ] および [オプション] のダイアログ ボックスで[OK] ボタンをクリックして各ダイアログ ボックスを閉じます。
  4. [画像] ウィンドウの上部にあるツールバーで、[読み取り] をクリックします。

これで、不明な文字が見つかった場合は [パターンの調整中] ダイアログ ボックスにその文字が表示されます。

  1. 新しい文字および合字を読むことができるようにプログラムに学習させます。

合字とは、「密着した」 2 つか 3 つの文字の組み合わせ (fi、fl、ffi など) で、プログラムにとって見分けることが困難です。実際には、これらの文字を 1 つの複合文字として取り扱うことによって、よりよい結果が得られます。

注意:テキスト内で太字または斜体で書かれた単語、または上付き文字/下付き文字の単語は、[文字飾り] の項目で対応するオプションを選択することにより、認識したテキストで保持できます。

前に学習した文字に戻るには、[戻る] ボタンをクリックします。枠が前の位置に移動し、直前に学習した「文字画像とキーボード文字」の組み合わせがパターンから削除されます。[戻る] ボタンは 1 つの単語の文字の間を移動するためのもので、単語間を移動することはできません。

重要事項

  • ABBYY FineReader に読み取りを学習させることができるのは、認識言語の英文字に含まれる文字のみです。キーボードで入力できない文字を読み取るようにプログラムに学習させるには、2 つの文字の組み合わせを使用して、存在しないその文字を表すか、または必要な文字を [文字の挿入] ダイアログ ボックスからコピーします (ダイアログ ボックスを開くには をクリック)。
  • 各パターンには新しい文字を 1,000 字まで含めることができます。 ただし、OCR 品質を低下させる可能性があるため、合字を多く作りすぎないようにしてください。

ユーザー パターンの選択

ABBYY FineReader では、パターンを使用して OCR 品質を高めることができます。

  1. [ツール] メニューで [パターン エディタ…] をクリックします。
  2. [パターン エディタ] ダイアログ ボックスで、利用可能なパターンのリストから必要なパターンを選択して [アクティブに設定] をクリックします。

覚えておくべき重要なポイント

  1. 類似してはいるものの、異なる一部の文字を区別する代わりに、ABBYY FineReader ではそれらの文字を 1 つの同じ文字として認識します。 例えば、直線 (')、左向き (‘)、および右向き (’) の引用符は、1 つの文字 (直線の引用符) としてパターンに保存されます。これは、左向きと右向きの引用符が、たとえユーザーが学習機能の対象にしようとしても、認識されたテキストでは決して使用されないことを意味します。
  2. 一部の文字画像の場合、ABBYY FineReader では前後の文脈に基づいて、対応するキーボード文字を選択します。例えば、小さな円の画像は、そのすぐ横に文字があれば文字「O」として認識され、そのすぐ横に数字があれば、数字「0」として認識されます。
  3. パターンは、そのパターンの作成に使用された文書と同じフォント、フォント サイズ、および解像度の文書のみに使用できます。
  4. パターンを後で使用するためには、ファイルに保存します。詳細については、「FineReader 文書とは何か」を参照してください。
  5. 異なるフォントのテキスト セットを認識するには、[ツール] > [オプション…] > [読み取り] で [ビルトイン パターンのみを使用する] オプションを選択し、必ずユーザー パターンを無効にします。

ユーザー パターンの編集

新たに作成したパターンを、OCR プロセスを起動する前に編集できます。 正しく学習が行われなかったパターンは、OCR 品質にマイナスの影響を及ぼすことがあります。パターンには、完全な文字または合字のみを含める必要があります。端が切り取られた文字や、対応関係の正しくない文字は、パターンから削除してください。

  1. [ツール] メニューで [パターン エディタ…] をクリックします。
  2. [パターン エディタ] ダイアログ ボックスが開きます。任意のパターンを選択して [編集…] ボタンをクリックします。
  3. 表示された [ユーザー パターン] ダイアログ ボックスで、文字を選択して [プロパティ…] ボタンをクリックします。

表示されたダイアログ ボックスで

  • [文字] フィールドに対応する文字を入力します。
  • [文字飾り] フィールドで任意の文字飾り (太字、斜体、上付き文字、または下付き文字) を指定します。

[ユーザー パターン] ダイアログ ボックスで [削除] ボタンをクリックし、正しく学習されなかった文字を削除します。

14.01.2020 17:26:20


Please leave your feedback about this article