处理复杂文字语言

使用 ABBYY FineReader,您可以识别阿拉伯语、希伯来语、意第绪语、泰国语、中文、日语和韩语文档 处理中文、日语或韩语文档,以及混合使用中日韩 (CJK) 语言和欧洲语言的文档时,必须考虑一些其他因素。

安装语言支持

为了能识别阿拉伯语、希伯来语、意地绪语、泰国语、中文、日语和韩语文本,您可能需要安装这些语言。

在默认情况下,Microsoft Windows 8、Windows 7 和 Windows Vista 支持这些语言。

要在 Microsoft Windows XP 中安装新语言:

  1. 在任务栏上单击开始
  2. 单击控制面板 > 区域和语言选项
  3. 单击语言选项卡并选择下列选项:
    • 为复杂文字和从右到左的语言安装文件(包括泰文)

以支持阿拉伯语、希伯来语、意地绪语和泰国语

  • 为东亚语言安装文件

以支持日语、中文和韩语

  1. 单击确定

推荐的字体

要识别阿拉伯语、希伯来语、意地绪语、泰国语、中文、日语和韩语,可能需要在 Windows 中安装更多的字体。以下列表显示了对应这些语言的推荐字体。

OCR 语言 推荐的字体
阿拉伯语 Arial™ Unicode™ MS*
希伯来语 Arial™ Unicode™ MS*
意第续语 Arial™ Unicode™ MS*
泰国语

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

简体中文

繁体中文

日语、朝鲜语

韩国语(韩文字母)

Arial™ Unicode™ MS*

SimSun 字体

例如:SimSun (Founder Extended)、SimSun-18030、NSimSun。

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

* 该字体随 Microsoft Windows XP 和 Microsoft Office 2000 或更高版本一起安装。

以下部分包含关于提高识别准确度的建议。

禁用自动处理

在默认情况,会自动识别任何添加至 ABBYY FineReader 文档的页面。

但是,如果文档包含的文本混合使用了 CJK 语言和欧洲语言,建议仅在所有页面图像的方向都无误的情况下(例如没有倒置扫描)禁用自动页面方向检测及使用双页拆分选项。

检测页面方向 拆分对页 选项可在 选项对话框的扫描/打开选项卡上启用和禁用。

注:要以阿拉伯语、希伯来语或意第续语拆分对页,请确保首先选择相应的识别语言,然后才选择 拆分对页选项。这样便于确保能以正确的顺序排列页面。您也可以通过选择翻动书本页面选项来恢复原始页面编号。详情请参见“FineReader 文档是什么”?

如果文档的结构复杂,建议禁用对图像执行自动分析和 OCR ,而执行手动操作。

要禁用自动分析和 OCR:

  1. 打开选项对话框(工具 > 选项…)。
  2. 扫描/打开 选项卡上清除 在添加页面时自动处理选项。
  3. 单击确定

识别多语言文档

在以下的说明中,将某一同时包含英文和中文文本的文档作为示例。

  1. 在主工具栏上,从更多语言…下拉列表中选择文档语言。从手动指定语言对话框选择语言编辑器,并从语言列表选择中文和英语。
  2. 扫描或打开图像。
  3. 如果程序无法检测图像上的所有区域:
    • 使用区域编辑工具手动指定区域。
    • 指定任何只包含一种语言的区域。为此,请选择这些区域并在 区域属性 面板上指定相应的语言。

重要!该语言仅可指定给类型相同的区域。如果您选择类型不同的区域,如文本表格,则无法指定一种语言。

  1. 单击主工具栏上的读取按钮.

如果“文本”窗口中不显示非欧洲字符

如果文本窗口中有错误显示的 CJK 语言,表示您可能选择了纯文本模式。

要更改 纯文本下使用的字体:

  1. 打开选项对话框(工具 > 选项…)。
  2. 单击查看选项卡。
  3. 用于显示纯文本的字体 下拉列表中选择 Arial Unicode MS。
  4. 单击确定

如果此举无用,文本窗口的文本依然显示不正确,请参阅如果“文本”窗口中的某些字符被替换成了 "?" 或 "□"

更改已识别文本的方向

ABBYY FineReader 自动检测文本方向,但是您也可以手动指定方向。

  1. 文本窗口中选择一个或多个段落。
  2. 单击文本窗口工具栏上的 按钮。

注:您可以使用图像窗口中的 CJK 文本方向,在文本识别之前指定其方向。详情请参阅竖排或反转文本识别不当

14.01.2020 17:26:22


Please leave your feedback about this article