OCR 操作前要考虑的文档特征

Download

图像质量可以对识别质量产生重大影响。本部分讲解释识别图像前需要考虑的因素:

文档语言

ABBYY FineReader 可以识别单语言文本和多语言文本(如使用两种及以上语言)。对于多语言文本,需要选择多种识别语言。

要为文本指定一种 OCR 语言,请从主工具栏或任务窗口的文档语言下拉列表中选择下列选项之一:

  • 自动选择

ABBYY FineReader 将自动从用户自定义的语言列表中选择恰当的语言。要修改此列表:

  1. 选择更多语言…
  2. 语言编辑器对话框中选择 从以下列表中自动选择文档语言选项。
  3. 单击指定…按钮。
  4. 语言对话框中选择所需语言。
  • 一种语言或多种语言的组合

选择一种语言或多种语言的组合。语言列表中包含最近使用的识别语言,以及英语、德语和法语。

  • 更多语言…

如果您需要的语言未显示在列表里,请选择该选项。

语言编辑器对话框中选择 手动指定语言选项,然后选中相应对话框以选择所需语言。如果经常使用特定的语言组合,则可为这几种语言新建一个组

如果某种语言不在该列表中,则:

  1. ABBYY FineReader 也不支持该语言。

有关受支持语言的完整列表,请参阅“受支持的语言”

  1. 您的软件副本不支持该语言。

您副本中可用语言的完整列表可在许可证对话框(帮助 > 关于… > 许可证信息)中找到。

除使用内置的语言和语言组之外,您还可以创建自己的语言。详情请参阅“如果程序无法识别某些字符”。

打印类型

文档可可通过多种设备进行打印,如打字机和传真。选择选项对话框中的文档类型可提高 OCR 质量。

对于多数文档,程序会自动检测打印类型。要自动检测打印类型,必须选中自动对话框(工具>选项…)中的文档类型下的选项选项。您可以在全彩色或黑白模式中处理文档。

但也可以根据需要选取手动选择打印类型。

打字机生成的文本示例。所有字母的宽度相等(例如,比较“w”和“t”)。对于此类文本,请选择打字机
传真机生成的文本示例。从例中可以看出,除了有噪声和失真外,有些地方的字母也不清晰。对于此类文本,请选择传真

提示:识别打字机打印的文本或传真后,请确保在处理常规打印文档前选中自动

打印质量

质量欠佳的文档,如有“噪声”(即无规则的黑点或斑纹)、模糊和不均匀的文字,或行歪斜和表格边界偏移,则可能需要指定扫描设置。

传真 报纸

质量欠佳的文档最好采用灰度扫描。采用灰度扫描时,程序将自动选择最佳的亮度值。

灰度扫描模式会在扫描文本中保留文字的详细信息,以在识别质量中等到欠佳的文档时达到最佳 OCR 效果。您也可以使用图像编辑器中的图像编辑工具手动纠正某些缺陷。详情请参阅“图像预处理”。

色彩模式

如果您不需要保留全彩色文档中的原始颜色,则您可以在黑白模式中处理文档。这样可以明显减小生成的 ABBYY FineReader 文档的大小并提高 OCR 过程的速度。但是,以黑白模式处理质量欠佳的图像可能导致 OCR 质量欠佳。我们也不推荐使用黑白模式处理照片、杂志页面以及使用中文、日语和韩语的文本。

:您也可以通过选择快速读取选项提高彩色和黑白文档的识别速度,该选项位于选项对话框的读取选项卡中。有关识别模式的更多信息,请参阅 OCR 选项

要选择色彩模式:

  • 使用 任务对话框中的色彩模式下拉列表或
  • 选择选项对话框(工具>选项…)中文档选项卡下的色彩模式

重要!当文档转换为黑白之后,您不能恢复彩色。要获取彩色文档,请打开带有彩色图像的文件或在彩色模式中扫描纸质文档。

14.01.2020 17:26:22

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.