在 OCR 之前需考虑的文档特征

Download

图像质量对 OCR 质量有重大影响。 本部分解释识别图像前需要考虑的因素:

OCR 语言

ABBYY FineReader 可以识别单语言文档和多语言文档(如使用两种及更多语言)。 对于多语言文档,需要选择多种 OCR 语言。

要选择 OCR 语言,请单击 选项 > 语言 并选择下列选项之一:

  • 从以下列表中自动选择 OCR 语言
    ABBYY FineReader 将自动从用户定义的语言列表中选择恰当的语言。 要修改语言列表:
    1. 确保选择了 从以下列表中自动选择 OCR 语言 选项。
    2. 单击 指定... 按钮。
    3. 语言 对话框中,选择所需的语言,然后单击 确定
    4. 选项 对话框中,单击 “确定”。
  • 手动指定 OCR 语言
    如果您需要的语言不在列表中,请选择此选项。

在下面的对话框中,指定一种或多种语言。 如果你经常使用特定的语言组合,您可以 为这些语言 创建新组。

如果一种语言不在列表中,可能是下列情况之一:

  1. 不受 ABBYY FineReader 支持,或者
    有关受支持语言的完整列表,请参阅 《受支持的 OCR 语言》
  2. 您的产品版本不支持。
    您产品版本中可用语言的完整列表可在 “许可证” 对话框 (单击 帮助 > 关于 > 许可证信息 打开此对话框)中找到。

除了使用内置语言和语言组以外,您可以创建您自己的语言和语言组。也请参阅: 如果程序无法识别某些字符

打印类型

文档可使用打字机和传真机等各种设备进行打印。 根据文档不同的打印方式,OCR 质量可能各不相同。 您可以在对话框中选择正确的打印类型以提高 OCR 质量 选项 的选项。

对于大多数文件,程序将自动检测其打印类型。 若要自动检测打印类型, 自动 必须 文档类型选项 对话框的选项组 (单击 工具 > 选项... > OCR 访问这些选项)中选定选项。 您可以在全彩色或黑白模式下处理文档。

如需要,您也可以手动选择打印类型,

打印文本示例。 所有字母均为相等宽度(比较,例如,"w"和"t")。 对于此类文本,请选择 打字机
由传真机产生的文本示例。 您可以从示例中看出,有些地方的字母看不清楚。 存在一些噪音和失真。 对于此类文本,请选择 传真

识别了打印文本或传真件之后,请务必在处理普通打印文档之前选择 自动

打印质量

质量欠佳的文档,如有“噪声”(即无规则的黑点或斑纹)、模糊和不均匀的文字,或行歪斜和表格边界偏移,则可能需要指定扫描设置。

传真 报纸

质量欠佳的文档最好在 灰度模式下扫描。 在灰度模式下扫描,程序将自动选择最优 亮度 值。

灰度扫描模式能够在已扫描的文本中保留更多字母信息,从而在识别质量中等和欠佳的文档时获得更好的 OCR 结果。 您也可以使用图像编辑器中的图像编辑工具手动纠正一些缺陷。 也请参阅: 如果您的文档图像存在缺陷,OCR 准确性低

色彩模式

如果您不需要保留全彩色文档的原始颜色,您可以在黑白模式下处理文档。 这将大大缩小生成的 OCR 项目的大小,加快 OCR 进程。 但是,在黑白模式下处理低对比度图像可能会导致 OCR 质量欠佳。 我们不建议在黑白模式下处理照片、杂志内页和中文、日语和韩语文本。

提示。 您还可以通过选择 快速识别OCR 对话框 选项 的选项卡上加快彩色和黑白文档的 OCR 速度。 有关识别模式的更多信息,请参阅 OCR 选项

有关正确选择色彩模式的一些其他建议,请参阅 扫描提示

当文档转换为黑白之后,您不能恢复为彩色。 若要获取彩色文档,打开带有彩色图像的文件或者在彩色模式下扫描纸质文档。

12.06.2024 14:32:16

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.