如果程序无法识别某些字符

ABBYY FineReader 14 在 识别文本时使用 有关文档语言的数据。 程序可能无法识别包含非常用元素(如代码编号)的文档中的某些字符,因为此文档语言可能不包含这些字符。 若要识别这些文档,您可以创建包含所有必要字符的自定义语言。 您还可以 创建多个 OCR 语言组, 并在识别文档时使用这些语言组。

如何创建用户语言

  1. 打开 选项 对话框(单击 工具 > 选项... 打开此对话框),单击 语言 选项卡。
  2. 单击 新建... 按钮。
  3. 在打开的对话框中,选择 根据现有语言创建新语言 选项,选择您想要将其用于创建新语言的基础语言,并单击 确定
  4. 对话框将 语言属性 打开。 在此对话框中:
    1. 输入新语言的名称。
    2. 您在此对话框中选择的语言会显示 新建语言或组 在下拉列表 源语言 中。 您可以从下拉列表中选择不同的语言。
    3. 字母 包含基础语言的字母表。 如果您想编辑此字母表,请单击 按钮。
    4. “词典” 选项组 包含程序识别文本和检查结果时使用的词典的多个选项:

      • 该语言将不包含词典。
      • 内置式词典
        将使用程序的内置词典。
      • 用户词典
        单击 编辑... 按钮,指定词典术语或导入现有的自定义词典或采用 Windows-1252 编码的文本文件(术语必须以空格或字母表中不包含的其他字符分开)
        检查已识别文本的拼写时,用户词典中的单词将不会标记为拼写错误。 单词可能为全部小写或全部大写字母,或者以大写字母开头。
词典中的单词 不会在检查拼写时标记为拼写错误的单词
abc abc、Abc、ABC
Abc abc、Abc、ABC
ABC abc、Abc、ABC
Abc aBc、abc、Abc、ABC
  • 正则表达式 让您使用正则表达式创建用户词典。
    也请参阅: 正则表达式
  1. 语言可能具有多个其他属性。 若要变更这些属性,请单击 高级... 按钮,打开 高级语言属性 对话框,在其中您可以指定:
    • 以单词开始或结束的字符
    • 与单词看起来不同的非字母字符
    • 可能出现在单词中的但是应该忽略的字符
    • 不能出现在使用此语言已识别的文本中的字符(禁止字符)
    • 文本可能包含阿拉伯数字、罗马数字和缩写
  2. 现在当您选择 OCR 语言时可选择新建语言。
    关于 OCR 语言的更多信息,请参阅 “OCR 语言”

默认下,用户语言保存在 OCR 项目文件夹中。 您还可以将所有用户模式和语言保存为单个文件。 为此,打开 选项 对话框(单击 工具 > 选项... 打开此对话框),单击 OCR 选项卡,然后单击 “保存模式和语言...” 按钮。

创建语言组

如果您要定期使用特定的语言组合,为了方便起见,您可能希望将这些语言组成一个语言组。

  1. 打开 选项 对话框(单击 工具 > 选项... 打开此对话框),并单击 语言 选项卡。
  2. 单击 新建... 按钮。
  3. 新建语言或组 对话框中,选择 创建新语言组 选项,再单击 确定
  4. 对话框 语言组属性 将打开。 在此对话框中,指定语言组的名称,并选择您想要包含在组中的语言。
    如果已知文本不会包含某些字符,可将其明确指定为所谓的禁用字符。 这样可以增加 OCR 速度和准确性。 若要指定这些字符,请在对话框中单击 高级... 按钮,并在此字段中输入 语言组属性 禁止 禁用字符 字符。
  5. 单击 确定

新语言组将出现在 主工具栏上语言的下拉列表中

默认下,用户语言组保存在 OCR 项目文件夹中。 您还可以将所有用户模式和语言保存为单个文件。 为此,打开 选项 对话框(单击 工具 > 选项... 打开此对话框),并单击 OCR 选项卡,然后单击 “保存模式和语言...” 按钮。

提示。 您可以使用主工具栏上的语言下拉列表选择语言组。

  1. 从主工具栏上的语言下拉列表中选择 更多语言...
  2. 语言编辑器 对话框中,选择 手动指定 OCR 语言 选项。
  3. 选择所需的语言,并单击 确定

11/2/2018 4:20:10 PM


Please leave your feedback about this article