如果您打印的文档包含非标准字体

训练模式可提高含有装饰字体的文档或包含特殊字符(例如数学符号)文档的 OCR 质量。

注:不推荐在其他情况下使用训练模式,因为相对于在训练上所花费的时间和精力,识别质量的提升并不显著。

在训练模式中,可创建一种对整篇文本执行 OCR 操作时使用的用户模式

使用用户模式

要使用一种模式来识别文档:

  1. 打开选项对话框(工具>选项…),然后单击 读取选项卡。
  2. 训练下,选择 仅使用用户模式选项。

注:如果选择 使用内置和用户模式,ABBYY FineReader 12 将同时使用用户模式及厂商预设模式执行 OCR 操作。

  1. 单击模式编辑器… 按钮。
  2. 模式编辑器对话框中选择所需模式,然后单击确定
  3. 在 ABBYY FineReader 主窗口中单击读取按钮。

创建和训练用户模式

要训练用户模式以识别新字符和连字:

  1. 打开选项对话框(工具>选项…),然后单击 读取选项卡。
  2. 训练下,选择 使用内置和用户模式仅使用用户模式
  3. 选择通过训练读取选项。
  4. 单击模式编辑器… 按钮。

注:亚洲语系不支持模式训练。

  1. 模式编辑器对话框中,单击新建…
  2. 将打开创建模式对话框。键入用户模式名称并单击确定
  3. 关闭模式编辑器选项对话框,其方式是单击这两个对话框中的确定按钮。
  4. 图像窗口顶部的工具栏中单击读取

现在,如果 ABBYY FineReader 遇到未知字符,则该字符将会显示在 模式训练对话框中。

  1. 教授程序读取新字符连字

连字是两个或三个“粘合”字符的组合(如 fi、fl、ffi 等),程序很难将之分开。实际上,更好的方式是将它们视为一个合成字符。

注:选择效果下的对应选项,可在已识别文本中保留文本中用粗体、斜体打印的词或用上标/下标表示的词。

要返回至上一训练字符,请单击上一步按钮。画面将跳到上一位置,并从模式中删除最后训练的“字符图像-键盘字符”对应项。上一步按钮在一个单词的字符间浏览,而不会在单词之间浏览。

重要!

  • 可仅训练 ABBYY FineReader 使其阅读识别语言字母中所包含的字符。要训练该程序读取那些无法用键盘输入的字符,可使用两个字符的组合来表示这些不存在字符,或从插入字符对话框(单击 可打开该对话框)中复制所需字符。
  • 每个模式最多可包含 1,000 个新字符。 但请避免创建过多连字,因为这样可能会影响 OCR 质量。

选择用户模式

ABBYY FineReader 允许使用模式来提高 OCR 质量。

  1. 工具菜单中,单击模式编辑器…
  2. 模式编辑器对话框中,从可用模式列表中选择所需模式,然后单击 设置为活动

应记住的要点:

  1. ABBYY FineReader 无法区分一些相似但又不同的字符,而是将它们识别为相同的字符。 例如,直引号 (')、左引号 (‘) 和右引号 (’) 在模式中都将存储为一个字符(直引号)。这意味着即使您尝试对左引号和右引号进行训练,它们还是不会用在已识别的文本中。
  2. 对于某些字符图像,ABBYY FineReader 将视上下文内容来选择相应的键盘字符。例如,对于小圈图像,如果其周围为字母,它将被识别为字母 O,而如果紧挨着其周围的为数字,则会被识别为数字 0。
  3. 仅当文档具有与创建模式的文档相同的字体、字号和分辨率时,方可对该文档使用此模式。
  4. 要稍后使用模式,请将该模式保存到文件。详情请参见“FineReader 文档是什么?”。
  5. 要识别以不同字体设置的文本,请选择仅使用内置模式选项(在工具>选项… > 读取中)。

编辑用户模式

启动 OCR 过程前可编辑新建的模式。 错误的训练模式可能影响 OCR 质量。模式应仅包含完整字符或连字。应从模式中删除边缘缺失的字符和对应字母错误的字符。

  1. 工具菜单中,单击 模式编辑器…
  2. 将打开 模式编辑器对话框。选择所需的模式,然后单击编辑…按钮。
  3. 在打开的 用户模式对话框中,选择字符,然后单击 属性…按钮。

在打开的对话框中:

  • 输入与 字符字段相对应的字母
  • 效果字段中指定所需字体效果(斜体、粗体、上标和下标)。

删除中单击用户模式按钮以删除错误训练的字符。

14.01.2020 17:26:22


Please leave your feedback about this article