训练用户模式
如果 IRecognizerParams::TrainUserPatterns 属性被设为 TRUE,训练用户模式将在识别过程中被调用。遇到未知字符时,模式训练 对话框就会打开,显示字符图像。
注: 您也可以使用 IEngine::TrainUserPattern 方法执行模式训练而无需显示对话。该方法将存储字符图像集合和字符本身的 TrainingImagesCollection 对象作为输入参数。
训练识别字符
顶部对话窗口中的框架应该包围 单个字符,且该字符必须被框架完全包围。如果框架只包含部分字符或多个字符,请单击框架边缘并移动框架以符合上述要求。 和 按钮也可移动框架边缘(对于训练斜体符号有用)。框架摆位正确后,键入字符并单击 训练 按钮。
注:
- 只能训练系统读取字母表中包含的字符。如需训练 ABBYY FineReader Engine 读取无法从键盘输入的字符,请使用两个字符的组合来表示这些不存在的字符或者从字符表 复制所需字符(单击 按钮在 模式训练 对话中打开字符表)。
- 如需训练系统保留字符格式,请在单击训练 按钮前在 模式训练 对话中选择 斜体 或 黑体 项。
- 请确保在训练大小写字符图像时,分别输入大小写字符。
如果在训练过程中出现错误,请单击 返回 按钮,将框架返回到之前的位置。输入的上一个“图像-字符”对将自动从模式中删除。注意:该“撤销”功能仅作用于训练的最后一个词汇。
训练识别连字
连字是两个或三个“粘在”一起的字符的组合,例如:fi、fl 与 ffi 等。这些字符很难分开,因为它们作为打印进程的一部分“粘在”一起。实际上,可以将这些连字作为“单个”合成字符处理可获得更好的效果。
训练连字与训练单独字符的方法相同:
- 键入所需的字符组合,然后单击 训练按钮。
- 顶部对话窗口的框架应该包围 整个连字。您可以使用鼠标或者单击 和 按钮移动框架边缘。
每种模式包含最多 1000 个新字符。但是不建议创建过多连字,因为这可能会对识别质量产生负面影响。
训练限制
训练 ABBYY FineReader Engine 时还应该考虑到以下限制:
- ABBYY FineReader Engine 不会区分某些通常被认为不同的字符。此类图像被识别为同一个字符。例如,直撇号 (')、右撇号 (’) 和左撇号 (‘) 在模式中被作为一个字符,即直撇号。因此,即使尝试进行训练,已识别文本中也不会出现右撇号和左撇号。
- 在某些情况下,特定图像会根据其环境被识别为特定字符。
- CJK 语言不支持模式训练。
另请参阅
17.09.2024 15:14:41