新しい認識言語の作成
検証ステーションはテキストの認識を行う際、文書の言語に関するデータを使用します。一般的でない要素(コード番号など)を伴う文書の場合、プログラムはその文書の言語に含まれていない文字を一部認識できないことがあります。 そのような文書を認識させるため、必要な文字をすべて含んでいるカスタム言語を作成できます。 また、 複数のOCR言語のグループを作成し、 文書の認識時にそのグループを使用することもできます。
- ツールメニューで[言語エディタ...]をクリックします
- 次に 新規... ボタンをクリックします。
- 開かれるダイアログボックスで 既存の言語に基づいて新しい言語を作成する オプションを選択し、新しい言語のベースとして使用する言語を選択して OK をクリックします。
- これによって 言語のプロパティ ダイアログボックスが開きます。 このダイアログボックスで:
- 新しい言語の名前を入力します。
- ダイアログボックスで選択した 新しい言語またはグループ 言語が ソース言語 ドロップダウンリストに表示されます。 このドロップダウンリストから別の言語を選択することもできます。
- この アルファベット にはベース言語のアルファベットが含まれています。 アルファベットを編集したい場合は、 ボタンをクリックします。
- また、 辞書 オプショングループには、プログラムがテキストの認識や結果の確認で使用するオプションが複数含まれています:
- なし
この言語には辞書がありません。 - 組み込み辞書
プログラムのビルトイン辞書が使用されます。 - ユーザー辞書
次の 編集... ボタンをクリックし、辞書の用語を指定するか、既存のカスタム辞書かWindows-1252エンコードによるテキストファイルをインポートします(用語はスペースまたはアルファベット以外の文字で区切る必要があります)。
ユーザー辞書からの単語は、認識されたテキストのスペルチェック時にスペルミスとしてマークされません。 すべて小文字でも、すべて大文字でも、最初の文字だけ大文字でも構いません。
辞書の単語 | スペルチェック時にスペルミスと判断されない単語 |
abc | abc、Abc、ABC |
Abc | abc、Abc、ABC |
ABC | abc、Abc、ABC |
Abc | aBc、abc、Abc、ABC |
- この 正規表現 では、正規表現を使用したユーザー辞書を作成できます。
以下も参照してください: 正規表現。
- 言語には複数のプロパティを追加できます。 プロパティを変更するには、 詳細... ボタンをクリックして 言語の詳細プロパティ ダイアログボックスを開き、以下を指定します:
- 単語の最初または最後の文字
- 単語とは別に表示されるアルファベット以外の文字
- 単語内に表示されることがあるものの、無視しなければならない文字
- この言語を使って認識されたテキストでは表示できない文字(禁止文字)
- テキストにアラビア数字、ローマ数字、略語が含まれている可能性がある オプション
- これで、新しく作成された言語をOCR言語の選択時に選択できるようになります。
また、すべてのユーザーパターンと言語を1つファイルとして保存することもできます。 このダイアログボックスは、ツール > パターンと言語を保存 とクリックすると開きます。
参照:
26.03.2024 13:49:51