プログラムが特定の文字を認識できない場合

ABBYY FineReader PDF は、テキストの認識時に 文書の言語に関する データを使用します。 一般的でない要素(コード番号など)を伴う文書の場合、プログラムはその文書の言語に含まれていない文字を一部認識できないことがあります。 そのような文書を認識させるため、必要な文字をすべて含んでいるカスタム言語を作成できます。 また、 複数のOCR言語のグループを作成し、 文書の認識時にそのグループを使用することもできます。

ユーザー言語の作成方法

  1. まず オプション ダイアログボックスを開きます。このダイアログボックスは、ツール > オプション... とクリックすると開きます。次に 言語 タブをクリックします。
  2. 次に 新規... ボタンをクリックします。
  3. 開かれるダイアログボックスで 既存の言語に基づいて新しい言語を作成する オプションを選択し、新しい言語のベースとして使用する言語を選択して OK をクリックします。
  4. これによって 言語のプロパティ ダイアログボックスが開きます。 このダイアログボックスで:
    1. 新しい言語の名前を入力します。
    2. ダイアログボックスで選択した 新しい言語またはグループ 言語が ソース言語 ドロップダウンリストに表示されます。 このドロップダウンリストから別の言語を選択することもできます。
    3. この アルファベット にはベース言語のアルファベットが含まれています。 アルファベットを編集したい場合は、 ボタンをクリックします。
    4. また、 辞書 オプショングループには、プログラムがテキストの認識や結果の確認で使用するオプションが複数含まれています:
      • なし
        この言語には辞書がありません。
      • 組み込み辞書
        プログラムのビルトイン辞書が使用されます。
      • ユーザー辞書
        次の 編集... ボタンをクリックし、辞書の用語を指定するか、既存のカスタム辞書かWindows-1252エンコードによるテキストファイルをインポートします(用語はスペースまたはアルファベット以外の文字で区切る必要があります)。
        ユーザー辞書からの単語は、認識されたテキストのスペルチェック時にスペルミスとしてマークされません。 すべて小文字でも、すべて大文字でも、最初の文字だけ大文字でも構いません。
辞書の単語 スペルチェック時にスペルミスと判断されない単語
abc abc、Abc、ABC
Abc abc、Abc、ABC
ABC abc、Abc、ABC
Abc aBc、abc、Abc、ABC
  • この 正規表現 では、正規表現を使用したユーザー辞書を作成できます。
    以下も参照してください: 正規表現
  1. 言語には複数のプロパティを追加できます。 プロパティを変更するには、 詳細... ボタンをクリックして 言語の詳細プロパティ ダイアログボックスを開き、以下を指定します:
    • 単語の最初または最後の文字
    • 単語とは別に表示されるアルファベット以外の文字
    • 単語内に表示されることがあるものの、無視しなければならない文字
    • この言語を使って認識されたテキストでは表示できない文字(禁止文字)
    • テキストにアラビア数字、ローマ数字、略語が含まれている可能性がある オプション
  1. これで、新しく作成された言語をOCR言語の選択時に選択できるようになります。
    OCR言語に関する詳細については OCR言語 を参照してください。

デフォルトでは、ユーザー言語はOCRプロジェクトのフォルダーに保存されます。 また、すべてのユーザーパターンと言語を1つファイルとして保存することもできます。 これを実行するには、 オプション ダイアログボックスを開きます。このダイアログボックスは、ツール > オプション... とクリックすると開きます。次に OCR タブをクリックし、 パターンと言語を保存... ボタンをクリックします。

言語グループの作成

特定の言語の組み合わせを定期的に使用することになる場合は、利便性が高まるよう、その言語をグループにまとめてしてください。

  1. まず オプション ダイアログボックスを開きます。このダイアログボックスは、 ツール > オプション... とクリックすると開きます。次に 言語 タブをクリックします。
  2. 次に 新規... ボタンをクリックします。
  3. 次に 新しい言語またはグループ ダイアログボックスで 新しい言語グループを作成する オプションを選択し、 OK をクリックします。
  4. これによって 言語グループのプロパティ ダイアログボックスが開きます。 このダイアログボックスで、言語グループの名前を指定し、グループに含める言語を選択します。
    テキストに特定の文字が含まれていないことがわかっている場合は、その文字を「禁止文字」として明確に指定してください。 この操作を行うと、OCRの速度と精度が向上します。 そのような文字を指定するには、 詳細... ボタン( 言語グループのプロパティ ダイアログボックス)をクリックし、 禁止文字 フィールドに禁止文字を入力します。
  5. 次に OK をクリックします。

新しいグループが メインツールバーの言語のドロップダウンリストに表示されます。

デフォルトでは、ユーザー言語グループは OCRプロジェクトのフォルダーに保存されます。 また、すべてのユーザーパターンと言語を1つファイルとして保存することもできます。 これを実行するには、 オプション ダイアログボックスを開きます。このダイアログボックスは、 ツール > オプション... とクリックすると開きます。次に OCR タブをクリックし、 パターンと言語を保存... ボタンをクリックします。

ヒント。 メインツールバーの言語ドロップダウンリストで、言語グループを選択できます。

  1. メインツールバーの言語ドロップダウンリストから その他の言語... を選択します。
  2. 次に 言語エディタ ダイアログボックスで OCR 言語を手動で指定 オプションを選択します。
  3. 目的のな言語を選択し、 OK をクリックします。

12.06.2024 14:30:34

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.