如果程序未能识别某些字符

Download

ABBYY FineReader 在识别文本时使用文档语言相关的数据。对于包含很多非常用元素(如代码编号)的文本,程序可能无法识别某些字符,因为文档语言可能没有包含此类字符。要识别此类文档,可创建自定义语言,其中包括了所有需要的字符。也可分配多种语言给语言组,然后使用这些组进行识别。

创建用户语言

  1. 工具菜单中,单击语言编辑器…
  2. 语言编辑器对话框中,单击新建…
  3. 在打开的对话框中,选择根据现有语言创建新语言选项,然后选择新语言所依据的语言并单击确定
  4. 将打开语言属性对话框。在此对话框中:
    1. 输入新语言的名称:
    2. 之前选择的基础语言将显示在源语言下拉列表中。可更改源语言。
    3. 字母包含了基础语言的字母。单击 按钮以编辑字母。
    4. 程序识别文本和检查结果时,将会用到几个与词典相关的选项。

语言将不会有词典。

  • 内置式词典

将使用程序的内置词典。

  • 用户词典

单击编辑…按钮以指定词典项目,或导入现有自定义词典或带有 Windows-1252 编码的文本文件(项目之间必须以空格或以其他非字母表中的字符隔开)。

注:检查所识别文本的拼写时,不会将用户词典中的单词标记为错误。它们可能全部使用小写字母或大写字母,或者可能以大写字母开头。

词典中的单词 拼写检查时不会认为是错误的单词。
abc abc、Abc、ABC
Abc abc、Abc、ABC
ABC abc、Abc、ABC
aBc aBc、abc、Abc、ABC
  • 正则表达式

可使用正则表达式创建自定义语言词典。

详情请参阅“正则表达式”。

  1. 语言可具有其他几种属性。单击 高级… 按钮以更改这些属性。

将打开高级语言属性对话框。可在此处指定:

  • 可作为单词开头或结尾的字符
  • 与单词分开显示的非字母字符
  • 显示在单词之间应忽略的字符。
  • 无法显示在使用此词典识别的文本中的字符(禁用字符)
  • 该语言所有可识别的字符
  • 还可启用 文本可能包含阿拉伯数字、罗马数字和缩写选项
  1. 现在,选择文档语言时可选择新创建的语言。

有关文档语言的更多信息,请参阅“OCR 操作前要考虑的文档特征”。

默认情况下,用户组会保存在 FineReader 文档文件夹中。您还可以将所有用户语言和用户模式另存为单个文件。为此,在工具菜单中,单击选项… 以打开选项对话框,单击 读取选项卡,然后单击保存到文件...按钮。

创建语言组

如果经常使用特定语言的组合,可将这几种语言组合在一起以便于使用。

  1. 工具菜单中,单击语言编辑器…
  2. 语言编辑器对话框中,单击新建…
  3. 创建新语言组对话框中,选择新建语言或组并单击确定
  4. 语言组属性对话框中键入新组名并选择所需语言。

注:如果已知文本不会包含某些字符,可将其明确指定为所谓的禁用字符。指定禁用字符会提高识别速度和质量。要指定禁用字符,请单击语言组属性对话框中的高级…按钮。在高级语言组属性对话框中的禁用字符字段中键入禁用字符。

  1. 单击确定

新建组将添加至主工具栏上的文档语言下拉菜单中。

默认情况下,用户语言组会保存在 FineReader 文档文件夹中。您还可以将所有用户语言和用户模式另存为单个文件。为此,在工具菜单中,单击选项… 以打开选项对话框,单击 读取选项卡,然后单击保存到文件…按钮。

提示:如果文档需要特殊语言的组合,也可直接选择所需语言,而无需为它们创建组。

  1. 文档语言下拉列表中选择更多语言…。
  2. 语言编辑器对话框中,选择 手动指定语言
  3. 选择所需语言并单击取消

14.01.2020 17:26:22

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.