处理复杂脚本语言

您可以使用 ABBYY FineReader 识别阿拉伯语、 希伯来语、 意第绪语、 泰语、 中文、 日文和韩语文档。 在处理中文、日文或韩语文档时或者处理同时使用 CJK 和欧洲语言的文档时,必须考虑一些其他因素。

推荐的字体

识别阿拉伯语、 希伯来语、 意第绪语、 泰语、 中文、 日文和韩语文本可能需要安装额外的字体。 下表列出了针对这些语言文本的推荐字体。

OCR 语言 推荐的字体
阿拉伯语 Arial™ Unicode™ MS
希伯来语 Arial™ Unicode™ MS
意第绪语 Arial™ Unicode™ MS
泰语

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

简体中文

繁体中文

日文、韩语

韩语(韩文字母)

Arial™ Unicode™ MS

宋体,例如︰

宋体(方正超大字符集)

宋体-18030、新宋体

黑体

幼圆

PMingLiU

MingLiU

Ming(for-ISO10646)

华文宋体

以下章节包含了提高识别精确度的建议。

禁用自动图像处理

默认情况下,您向 OCR 项目中添加的 任何页面将自动识别。

但是,如果您的文档混合使用中日韩(CJK)语言和欧洲语言,我们建议您禁用自动检测页面方向,仅在所有页面图像的方向均正确(例如没有倒置扫描)时使用双页拆分选项。

您可以启用/禁用 纠正页面方向拆分对开页 对话  图像处理选项 (单击 工具 > 选项... 打开此对话框)中的选项卡上的选项。

若要拆分阿拉伯语、 希伯来语或意第绪语对页,请务必首先选择相应的 OCR 语言,然后选择 拆分对开页 选项。 您也可以选择 翻动书本页面 选项恢复原始页码。 也请参阅: OCR 项目

如果您文档的结构复杂,我们建议对图像禁用自动分析和 OCR,手动执行这些操作。

您可以关闭自动分析和 OCR 新添加的图像, 图像处理 请单击 选项 对话框(单击 工具 > 选项... 打开此对话框)中的选项卡进行。

  1. 单击 工具 > 选项... 打开 此 选项 对话框。
  2. 图像处理 选项卡中,清除  将页面添加至 OCR 编辑器时自动处理页面图像 选项。
  3. 单击 “确定”

识别多语言文档

以下说明只为举例解释如何识别包含英语和中文文本的文档。 包含其他语言的文档,可以以类似的方式识别。

  1. 在主工具栏上,从语言列表中选择 更多语言...。 在 语言编辑器 对话框中,选择 手动指定 OCR 语言,然后从语言列表中选择中文和英语。
  2. 扫描页面或打开图像。
  3. 如果程序无法检测到图像上的所有区域︰

如果非欧洲字符未显示在文本面板中

如果中日韩语言文本在文本 面板中未正确显示,您可能选择了 纯文本 模式。

若要更换在 纯文本 模式下使用的字体:

  1. 单击 工具 > 选项... 打开 此 选项 对话框。
  2. 单击 区域和文字 选项卡。
  3. 从下拉列表中 用于显示纯文本的字体选择 Arial Unicode MS。
  4. 单击 “确定”

如果此方法不起作用,并且 文本 窗口中的文本仍未正确显示,请参阅 《使用了错误字体或者某些字符被替换成了“?”或“□”》

更改已识别文本的方向

ABBYY FineReader 自动检测文本方向,但是您也可以手动指定文本方向。

  1. 激活“文本”面板。
  2. 选择一个或多个段落。
  3. 在“文本”面板中,单击工具栏上的 按钮。

您可以在进行 OCR 之前使用 CJK 文本方向 “图像”面板中的下拉列表指定文本方向。 也请参阅: 编辑区域属性

02.11.2018 16:20:10


Please leave your feedback about this article