如果程序未能识别某些字符

ABBYY FineReader 在识别文本时使用文档语言相关的数据。对于包含很多非常用元素(如代码编号)的文本,程序可能无法识别某些字符,因为文档语言可能没有包含此类字符。要识别此类文档,可创建自定义语言,其中包括了所有需要的字符。也可分配多种语言给语言组,然后使用这些组进行识别。

创建用户语言

  1. 工具菜单中,单击语言编辑器…
  2. 语言编辑器对话框中,单击新建…
  3. 在打开的对话框中,选择根据现有语言创建新语言选项,然后选择新语言所依据的语言并单击确定
  4. 将打开语言属性对话框。在此对话框中:
    1. 输入新语言的名称:
    2. 之前选择的基础语言将显示在源语言下拉列表中。可更改源语言。
    3. 字母包含了基础语言的字母。单击 按钮以编辑字母。
    4. 程序识别文本和检查结果时,将会用到几个与词典相关的选项。

语言将不会有词典。

  • 内置式词典

将使用程序的内置词典。

  • 用户词典

单击编辑…按钮以指定词典项目,或导入现有自定义词典或带有 Windows-1252 编码的文本文件(项目之间必须以空格或以其他非字母表中的字符隔开)。

注:检查所识别文本的拼写时,不会将用户词典中的单词标记为错误。它们可能全部使用小写字母或大写字母,或者可能以大写字母开头。

词典中的单词 拼写检查时不会认为是错误的单词。
abc abc、Abc、ABC
Abc abc、Abc、ABC
ABC abc、Abc、ABC
aBc aBc、abc、Abc、ABC
  • 正则表达式

可使用正则表达式创建自定义语言词典。

详情请参阅“正则表达式”。

  1. 语言可具有其他几种属性。单击 高级… 按钮以更改这些属性。

将打开高级语言属性对话框。可在此处指定:

  • 可作为单词开头或结尾的字符
  • 与单词分开显示的非字母字符
  • 显示在单词之间应忽略的字符。
  • 无法显示在使用此词典识别的文本中的字符(禁用字符)
  • 该语言所有可识别的字符
  • 还可启用 文本可能包含阿拉伯数字、罗马数字和缩写选项
  1. 现在,选择文档语言时可选择新创建的语言。

有关文档语言的更多信息,请参阅“OCR 操作前要考虑的文档特征”。

默认情况下,用户组会保存在 FineReader 文档文件夹中。您还可以将所有用户语言和用户模式另存为单个文件。为此,在工具菜单中,单击选项… 以打开选项对话框,单击 读取选项卡,然后单击保存到文件...按钮。

创建语言组

如果经常使用特定语言的组合,可将这几种语言组合在一起以便于使用。

  1. 工具菜单中,单击语言编辑器…
  2. 语言编辑器对话框中,单击新建…
  3. 创建新语言组对话框中,选择新建语言或组并单击确定
  4. 语言组属性对话框中键入新组名并选择所需语言。

注:如果已知文本不会包含某些字符,可将其明确指定为所谓的禁用字符。指定禁用字符会提高识别速度和质量。要指定禁用字符,请单击语言组属性对话框中的高级…按钮。在高级语言组属性对话框中的禁用字符字段中键入禁用字符。

  1. 单击确定

新建组将添加至主工具栏上的文档语言下拉菜单中。

默认情况下,用户语言组会保存在 FineReader 文档文件夹中。您还可以将所有用户语言和用户模式另存为单个文件。为此,在工具菜单中,单击选项… 以打开选项对话框,单击 读取选项卡,然后单击保存到文件…按钮。

提示:如果文档需要特殊语言的组合,也可直接选择所需语言,而无需为它们创建组。

  1. 文档语言下拉列表中选择更多语言…。
  2. 语言编辑器对话框中,选择 手动指定语言
  3. 选择所需语言并单击取消

1/14/2020 5:26:22 PM


Please leave your feedback about this article