处理复杂脚本语言

Download

您可以使用 ABBYY FineReader 识别阿拉伯语、 希伯来语、 意第绪语、 泰语、 中文、 日文和韩语文档。 在处理中文、日文或韩语文档时或者处理同时使用 CJK 和欧洲语言的文档时,必须考虑一些其他因素。

推荐的字体

识别阿拉伯语、 希伯来语、 意第绪语、 泰语、 中文、 日文和韩语文本可能需要安装额外的字体。 下表列出了针对这些语言文本的推荐字体。

OCR 语言 推荐的字体
阿拉伯语 Arial™ Unicode™ MS
希伯来语 Arial™ Unicode™ MS
意第绪语 Arial™ Unicode™ MS
泰语

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

简体中文

繁体中文

日文、韩语

韩语(韩文字母)

Arial™ Unicode™ MS

宋体,例如︰

宋体(方正超大字符集)

宋体-18030、新宋体

黑体

幼圆

PMingLiU

MingLiU

Ming(for-ISO10646)

华文宋体

以下章节包含了提高识别精确度的建议。

禁用自动图像处理

默认情况下,您向 OCR 项目中添加的 任何页面将自动识别。

但是,如果您的文档混合使用中日韩(CJK)语言和欧洲语言,我们建议您禁用自动检测页面方向,仅在所有页面图像的方向均正确(例如没有倒置扫描)时使用双页拆分选项。

您可以启用/禁用 纠正页面方向拆分对开页 对话  图像处理选项 (单击 工具 > 选项... 打开此对话框)中的选项卡上的选项。

若要拆分阿拉伯语、 希伯来语或意第绪语对页,请务必首先选择相应的 OCR 语言,然后选择 拆分对开页 选项。 您也可以选择 翻动书本页面 选项恢复原始页码。 也请参阅: OCR 项目

如果您文档的结构复杂,我们建议对图像禁用自动分析和 OCR,手动执行这些操作。

您可以关闭自动分析和 OCR 新添加的图像, 图像处理 请单击 选项 对话框(单击 工具 > 选项... 打开此对话框)中的选项卡进行。

  1. 单击 工具 > 选项... 打开 此 选项 对话框。
  2. 图像处理 选项卡中,清除  将页面添加至 OCR 编辑器时自动处理页面图像 选项。
  3. 单击 “确定”

识别多语言文档

以下说明只为举例解释如何识别包含英语和中文文本的文档。 包含其他语言的文档,可以以类似的方式识别。

  1. 在主工具栏上,从语言列表中选择 更多语言...。 在 语言编辑器 对话框中,选择 手动指定 OCR 语言,然后从语言列表中选择中文和英语。
  2. 扫描页面或打开图像。
  3. 如果程序无法检测到图像上的所有区域︰

如果非欧洲字符未显示在文本面板中

如果中日韩语言文本在文本 面板中未正确显示,您可能选择了 纯文本 模式。

若要更换在 纯文本 模式下使用的字体:

  1. 单击 工具 > 选项... 打开 此 选项 对话框。
  2. 单击 区域和文字 选项卡。
  3. 从下拉列表中 用于显示纯文本的字体选择 Arial Unicode MS。
  4. 单击 “确定”

如果此方法不起作用,并且 文本 窗口中的文本仍未正确显示,请参阅 《使用了错误字体或者某些字符被替换成了“?”或“□”》

更改已识别文本的方向

ABBYY FineReader 自动检测文本方向,但是您也可以手动指定文本方向。

  1. 激活“文本”面板。
  2. 选择一个或多个段落。
  3. 在“文本”面板中,单击工具栏上的 按钮。

您可以在进行 OCR 之前使用 CJK 文本方向 “图像”面板中的下拉列表指定文本方向。 也请参阅: 编辑区域属性

12.06.2024 14:32:16

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.