複雑なスクリプト言語を使った作業

ABBYY FineReaderを使用して、アラビア語、ヘブライ語、イディッシュ語、タイ語、中国語、日本語、韓国語の文書を認識できます。 中国語、日本語、韓国語の文書およびこれらの言語とヨーロッパの言語が組み合わされて使用された文書で作業する場合には、いくつかの追加的要素を考慮する必要があります。

推奨されるフォント

アラビア語、ヘブライ語、イディッシュ語、タイ語、中国語、日本語、韓国語のテキストの認識は、追加のフォントをインストールする必要があります。 次の表は、これらの言語のテキストの推奨フォントを示します。

OCR言語 推奨されるフォント
アラビア語 Arial™ Unicode™ MS
ヘブライ語 Arial™ Unicode™ MS
イディッシュ語 Arial™ Unicode™ MS
タイ語

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

中国語 (簡体字)

中国語 (繁体字)

日本語、韓国語

韓国語 (ハングル)

Arial™ Unicode™ MS

以下にあげるようなSimSunフォント:

Example SimSun (Founder Extended)

SimSun-18030、NSimSun。

Simhei

YouYuan

PMingLiU

MingLiU

Ming(ISO10646用)

STSong

以下のセクションでは、認識精度を向上するためのアドバイスが提供されます。

画像の自動処理をオフにする

デフォルトでは、OCRプロジェクトに追加される すべてのページは 自動で認識されます。

しかし、文書にヨーロッパ言語と組み合わされた中国語、日本語、韓国語のテキストが含まれる場合、ページの方向の自動検出をオフにして、すべてのページ画像が正しい方向の場合にのみデュアルページ分割オプションを使用することが推奨されます(例:上下逆にスキャンされていない)。

ページの向きを修正 および 見開きページを分割する ダイアログボックスのタブの  画像処理 ダイアログボックスの オプション (このダイアログボックスは、 ツール > オプション... とクリックすると開きます)。

アラビア語、ヘブライ語、またはイディッシュ語で見開きのページを分割する場合には、必ず対応するOCR言語を選択してから 見開きページを分割する オプションをクリアします。 オプションを選択して ブックのページを差し替える オプションをクリアします。 以下も参照してください: OCR プロジェクト

文書構造が複雑な場合には、自動分析と画像のOCRをオフにして、これらの操作を手動で実行することが推奨されます。

新たに追加した画像の自動分析および自動 OCR は、 画像処理 ダイアログボックスの オプション (このダイアログボックスは、 ツール > オプション... とクリックすると開きます)。

  1. をクリックします ツール > オプション... とクリックしてオプション ダイアログボックスを開きます。
  2. 画像処理 タブで  ページの画像がOCRエディタに追加されたら自動で処理する オプションをクリアします。
  3. をクリックします OKをクリックします

1つ以上の言語で書かれた文書の認識

以下の手順は、英語と中国語のテキストを含む文書の認識方法の一例として提供されています。 他の言語を含む文書も同様の方法で認識できます。

  1. メインツールバーで言語リストから その他の言語... を選択します。 言語エディタ タブで OCR 言語を手動で指定 を選択し、言語のリストから中国語と英語を選択します。
  2. ページをスキャンするか、画像を開きます。
  3. プログラムが画像のすべてのエリアの検出に失敗した場合:
    • エリア編集ツールを使用してエリアを手動で 指定します
    • 1つの言語のみが含まれるエリアを選択し、 領域のプロパティ で、英語または中国語を適切に選択します。
      同一タイプのエリアに対してのみ言語を指定できます。 異なるタイプのエリアを選択した場合、例えば テキスト および などの場合には、言語を指定できません。
    • 必要に応じて、ドロップダウンリストで 向き テキストの方向を提供します(詳細については 縦書きまたは反転したテキストが認識されなかった場合 を参照してください)
    • 中国語、日本語、韓国語のテキストの場合、プログラムはドロップダウンリストに CJK テキストの向き テキストの方向を提供します(詳細については エリアプロパティの編集

テキストペインに非ヨーロッパ文字が表示されない場合

中国語、日本語、韓国語のテキストがテキスト ペインに不適切に表示される場合、 プレーンテキスト モードを選択する必要があります。

モードで使用されるフォントを変更 プレーンテキスト する:

  1. をクリックします ツール > オプション... とクリックして、オプション ダイアログボックスを開きます。
  2. エリアとテキスト
  3. ドロップダウンリストからArial Unicode MSを選択します プレーン テキストの表示に使用するフォント
  4. をクリックします OKをクリックします

それでも問題が解消せず、 テキスト ウィンドウのテキストが誤って表示される場合には、 正しくないフォントが使用されている場合や、一部の文字が "?" または "□" に置き換えられている場合

認識されたテキストの方向を変更する

ABBYY FineReaderはテキストの方向を自動で検出しますが、テキストの方向を手動で指定することもできます。

  1. テキストペインをオンにします。
  2. 1つ以上の段落を選択します。
  3. テキストペインのツールバーのボタンをクリックします。

画像ペインのドロップダウンリストを使用して CJK テキストの向き OCRの実行前にテキストの方向を指定できます。 以下も参照してください: エリアプロパティの編集

02.11.2018 16:19:30


Please leave your feedback about this article