印刷された文書に非標準のフォントが含まれている場合

認識させたい文書に装飾フォントや特殊文字(数学記号など)が含まれている場合は、学習機能モードを使用をして認識精度を向上させることをお勧めします。

それ以外の場合は、学習にかかる時間と労力に比べて認識品質の改善効果が微小であるため、学習機能モードの使用はお勧めできません。

学習機能モードでは ユーザーパターンが 作成されます。このユーザーパターンは、テキスト全体にOCRを実行する際に使用できます。

ユーザーパターンの使用

文書の認識でユーザーパターンを使用するには:

  1. まず ツール > オプション... とクリックして オプション ダイアログボックスを開き、 OCR タブをクリックします。
  2. 次に ユーザーパターンを使用 オプションを選択します。
    もし 組み込みパターンも使用 オプション( ユーザーパターンを使用 オプションの下)が選択されている場合、ABBYY FineReaderは作成されたユーザーパターンに加え、ビルトインのパターンを使用します。
  3. 次に パターン エディタ... ボタンをクリックします。
  4. 次に パターン エディタ ダイアログボックスでパターンを選択し、 OKをクリックします。
  5. OCRエディターウィンドウ上部のメインツールバーにある ボタンをクリックします。

ユーザーパターンの作成と学習機能

新しい文字や合字を認識するようユーザーパターンを学習させるには:

  1. まず ツール > オプション... とクリックして オプション ダイアログボックスを開き、 OCR タブをクリックします。
  2. 次に 新しい文字や連結線の認識のために学習機能を使用 オプションを選択します。
    もし 組み込みパターンも使用 オプション( 新しい文字や連結線の認識のために学習機能を使用 オプションの下)が選択されている場合、ABBYY FineReaderは作成されたユーザーパターンに加え、ビルトインのパターンを使用します。
  3. 次に パターン エディタ... ボタンをクリックします。
    アジア言語についてはパターン学習機能がサポートされていません。
  4. 次に パターン エディタ ダイアログボックスを開き、 新規... ボタンをクリックします。
  5. 次に パターンの作成 ダイアログボックスで、新しいパターンに名前を付け、 OKをクリックします。
  6. 次に OKパターン エディタ ダイアログボックスでクリックした後に、 OK オプション ダイアログボックスでクリックします。
  7. 次に ボタン( 画像 ペイン上部のツールバー)をクリックします。
    プログラムが認識できない文字を検出した場合、 パターンの調整中 ダイアログが開き、この文字が表示されます。
  8. プログラムに、新しい 文字合字の読み方を学習させます
    合字とは2つまたは3つの文字を隙間なく組み合わせたもの(fi、fl、ffiなど)のことであり、プログラムにとっては分割が困難です。 実際は、これらの文字を1 つの複合文字として扱うとより良い結果が得られます。
    太字や斜体で印刷された単語、または上付き文字や下付き文字の単語は、 「文字飾り」の下の対応するオプションを選択すれば、認識されたテキストでも書式設定が保持されます
    前に学習した文字に戻る場合は、 戻る ボタンをクリックします。 フレームが前の場所にジャンプし、最後に学習した「文字画像 - キーボード文字」のペアリングがパターンから削除されます。 この 戻る ボタンは1つの単語を形成する文字の間を移動するもので、単語の間は移動しません。

重要!

  • ABBYY FineReader 14の学習機能は、OCR言語のアルファベットに含まれている文字に対してのみ実行できます。 キーボードで入力できない文字を読み取れるようプログラムに学習させるには、2つの文字の組み合わせを使用して存在しないそのような文字を表すか、必要な文字を 文字の挿入 ダイアログボックスから目的の文字をコピーします。このダイアログボックスを開くには、  とクリックします。
  • 各パターンには最大1,000の新しい文字を含めることができます。 ただし、合字を作成し過ぎないようにしてください。OCR品質に逆効果が発生する場合があります。

ユーザーパターンの選択

ABBYY FineReaderでは、 パターンを使用して OCR品質を改善できます。

  1. まず ツール > パターン エディタ... とクリックします。
  2. 次に パターン エディタ ダイアログボックスで、リストのいずれかのパターンを選択し、 アクティブに設定 ボタンをクリックします。

留意点:

  1. プログラムが類似する2文字を識別できず、同じ1つの文字として認識する場合があります。 たとえば、直線状( ' )、左向き( ‘ )、右向き( ’ )の引用符は1つの文字(直線状の引用符)としてパターンに保存されます。 つまり、たとえ学習させようとしても、認識されたテキストで左向きや右向きの引用符が使用されることはありません。
  2. ABBYY FineReader 14は、文字画像によっては対応するキーボード文字を前後のコンテキストに基づいて選択することがあります。 たとえば、小さい円の画像はその直後に別の文字があれば小文字の「o」として認識され、その直後に数字があれば数字の「0」として認識されます。
  3. パターンは、そのパターンの作成に使用されたものと同じフォント、フォントサイズ、解像度の文書でのみ使用できます。
  4. ファイルにパターンを保存し、別のOCRプロジェクトに使用できます。 以下も参照してください: OCRプロジェクト
  5. フォントが異なるテキストを認識する場合は、必ずユーザーパターンを無効にしてください。 これを実行するには、ツール > オプション... とクリックして オプション ダイアログボックスを開き、 OCR タブをクリックして、 組み込みパターンを使用する オプションを選択します。

ユーザーパターンの編集

OCRプロセスを起動する前に、新しく作成したパターンを編集してください。 不正確な学習機能をパターンに適用すると、OCR品質に逆効果となる場合があります。 パターンには 文字全体か 合字全体のみ含まれるようにすることが必要です。 端が切れている文字、アルファベットのペアリングが間違っている文字は、パターンから削除しなければなりません。

  1. まず ツール > パターン エディタ...とクリックします。
  2. 次に パターン エディタ ダイアログボックスで編集するパターンを選択し、 編集... ボタンをクリックします。
  3. 次に ユーザー パターン ダイアログボックスで文字を選択して プロパティ... ボタンをクリックします。

開かれるダイアログボックスで:

  • まず 文字 フィールドに、文字に対応するアルファベットを入力します。
  • 次に 飾り文字 フィールドで、 目的のフォント効果(太字、斜体、下付き文字、上付き文字)を指定します。

不正確に学習された文字を削除するには、 削除 ボタン( ユーザー パターン ダイアログボックス)をクリックします。

02.11.2018 16:19:30


Please leave your feedback about this article