Chinese Simplified (简体中文)

字段别识别

进行字段级识别时,会识别短文本片段以捕捉某些字段的数据。识别质量在此场景中至关重要。

此场景也可用作更复杂场景的组成部分,这些场景需要从文档中提取有意义的数据(例如,为了将数据从纸质文档捕获到信息系统和数据库中,或者为了在文档管理系统中自动进行文档分类和索引)。

在此场景中,系统要么只识别部分字段中的几行文本,要么识别一个小图像上的整个文本。系统会计算出识别的每个字符的确定性评分。然后,在检查识别结果时可以使用确定性评分。此外,系统可以存储文本中词语和字符的多个识别变体,然后可在投票算法中使用它们改善识别质量。

此场景中的小文本片段处理在一些方面不同于其他场景中的相同步骤:

  1. 对扫描的图像或照片进行预处理

要识别的图像可能包含标记和背景噪声,两者都有可能妨碍识别。为此,会在这一步去除所有不需要的标记和背景噪声。

  1. 小文本片段识别

识别小文本片段时会事先知道要识别的数据类型。因此,可以通过使用外部字典、正则表达式、自定义识别语言和字母表,以及对字符串中的字符数量进行限制来改善识别质量。文本字段可能会同时包含印刷文本和手写文本。

  1. 处理已识别的数据

此场景要求达到最高的识别准确度,以便将数据校验工作保持在最低水平。系统可以计算出每个已识别的词语或字符的确定性评分并提供多个识别变体,然后多个引擎可以应用投票算法从中选择最佳候选对象。

实现场景

下面详细介绍了在此场景中使用 ABBYY FineReader Engine 12 的推荐方法。建议方法中采用了被认为最适合此场景的处理设置。

第1步加载 ABBYY FineReader Engine

第2步加载方案设置

第3步加载和预处理图像

第4步设置要识别的字段

第5步识别

第6步处理已识别的数据

第7步卸载 ABBYY FineReader Engine

所需资源

您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:

内核

Core.Resources

打开

打开,处理

处理

Processing.OCR

Processing.OCR, Processing.ICR

Processing.OCR.NaturalLanguages

Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages

如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅借助 FREngineDistribution.csv 文件处理 进一步了解详情。

其他优化

以下是帮助文件中的相关章节,您可以在其中找到有关如何为不同处理步骤设置参数的更多信息:

另请参阅

基本使用场景实现

17.09.2024 15:14:41

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.