OCR 操作前要考虑的文档特征

图像质量可以对识别质量产生重大影响。本部分讲解释识别图像前需要考虑的因素:

文档语言

ABBYY FineReader 可以识别单语言文本和多语言文本(如使用两种及以上语言)。对于多语言文本,需要选择多种识别语言。

要为文本指定一种 OCR 语言,请从主工具栏或任务窗口的文档语言下拉列表中选择下列选项之一:

  • 自动选择

ABBYY FineReader 将自动从用户自定义的语言列表中选择恰当的语言。要修改此列表:

  1. 选择更多语言…
  2. 语言编辑器对话框中选择 从以下列表中自动选择文档语言选项。
  3. 单击指定…按钮。
  4. 语言对话框中选择所需语言。
  • 一种语言或多种语言的组合

选择一种语言或多种语言的组合。语言列表中包含最近使用的识别语言,以及英语、德语和法语。

  • 更多语言…

如果您需要的语言未显示在列表里,请选择该选项。

语言编辑器对话框中选择 手动指定语言选项,然后选中相应对话框以选择所需语言。如果经常使用特定的语言组合,则可为这几种语言新建一个组

如果某种语言不在该列表中,则:

  1. ABBYY FineReader 也不支持该语言。

有关受支持语言的完整列表,请参阅“受支持的语言”

  1. 您的软件副本不支持该语言。

您副本中可用语言的完整列表可在许可证对话框(帮助 > 关于… > 许可证信息)中找到。

除使用内置的语言和语言组之外,您还可以创建自己的语言。详情请参阅“如果程序无法识别某些字符”。

打印类型

文档可可通过多种设备进行打印,如打字机和传真。选择选项对话框中的文档类型可提高 OCR 质量。

对于多数文档,程序会自动检测打印类型。要自动检测打印类型,必须选中自动对话框(工具>选项…)中的文档类型下的选项选项。您可以在全彩色或黑白模式中处理文档。

但也可以根据需要选取手动选择打印类型。

打字机生成的文本示例。所有字母的宽度相等(例如,比较“w”和“t”)。对于此类文本,请选择打字机
传真机生成的文本示例。从例中可以看出,除了有噪声和失真外,有些地方的字母也不清晰。对于此类文本,请选择传真

提示:识别打字机打印的文本或传真后,请确保在处理常规打印文档前选中自动

打印质量

质量欠佳的文档,如有“噪声”(即无规则的黑点或斑纹)、模糊和不均匀的文字,或行歪斜和表格边界偏移,则可能需要指定扫描设置。

传真 报纸

质量欠佳的文档最好采用灰度扫描。采用灰度扫描时,程序将自动选择最佳的亮度值。

灰度扫描模式会在扫描文本中保留文字的详细信息,以在识别质量中等到欠佳的文档时达到最佳 OCR 效果。您也可以使用图像编辑器中的图像编辑工具手动纠正某些缺陷。详情请参阅“图像预处理”。

色彩模式

如果您不需要保留全彩色文档中的原始颜色,则您可以在黑白模式中处理文档。这样可以明显减小生成的 ABBYY FineReader 文档的大小并提高 OCR 过程的速度。但是,以黑白模式处理质量欠佳的图像可能导致 OCR 质量欠佳。我们也不推荐使用黑白模式处理照片、杂志页面以及使用中文、日语和韩语的文本。

:您也可以通过选择快速读取选项提高彩色和黑白文档的识别速度,该选项位于选项对话框的读取选项卡中。有关识别模式的更多信息,请参阅 OCR 选项

要选择色彩模式:

  • 使用 任务对话框中的色彩模式下拉列表或
  • 选择选项对话框(工具>选项…)中文档选项卡下的色彩模式

重要!当文档转换为黑白之后,您不能恢复彩色。要获取彩色文档,请打开带有彩色图像的文件或在彩色模式中扫描纸质文档。

14.01.2020 17:26:22


Please leave your feedback about this article