字段别识别
进行字段级识别时,会识别短文本片段以捕捉某些字段的数据。识别质量在此场景中至关重要。
此场景也可用作更复杂场景的组成部分,这些场景需要从文档中提取有意义的数据(例如,为了将数据从纸质文档捕获到信息系统和数据库中,或者为了在文档管理系统中自动进行文档分类和索引)。
在此场景中,系统要么只识别部分字段中的几行文本,要么识别一个小图像上的整个文本。系统会计算出识别的每个字符的确定性评分。然后,在检查识别结果时可以使用确定性评分。此外,系统可以存储文本中词语和字符的多个识别变体,然后可在投票算法中使用它们改善识别质量。
此场景中的小文本片段处理在一些方面不同于其他场景中的相同步骤:
- 对扫描的图像或照片进行预处理
要识别的图像可能包含标记和背景噪声,两者都有可能妨碍识别。为此,会在这一步去除所有不需要的标记和背景噪声。
- 小文本片段识别
识别小文本片段时会事先知道要识别的数据类型。因此,可以通过使用外部字典、正则表达式、自定义识别语言和字母表,以及对字符串中的字符数量进行限制来改善识别质量。文本字段可能会同时包含印刷文本和手写文本。
- 处理已识别的数据
此场景要求达到最高的识别准确度,以便将数据校验工作保持在最低水平。系统可以计算出每个已识别的词语或字符的确定性评分并提供多个识别变体,然后多个引擎可以应用投票算法从中选择最佳候选对象。
实现场景
下面详细介绍了在此场景中使用 ABBYY FineReader Engine 12 的推荐方法。建议方法中采用了被认为最适合此场景的处理设置。
第1步加载 ABBYY FineReader Engine
第2步加载方案设置
第3步加载和预处理图像
第4步设置要识别的字段
第5步识别
第6步处理已识别的数据
第7步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅借助 FREngineDistribution.csv 文件处理 进一步了解详情。
其他优化
以下是帮助文件中的相关章节,您可以在其中找到有关如何为不同处理步骤设置参数的更多信息:
- 打开预处理图像
- 图像预处理
说明使用 ABBYY FineReader Engine 来预处理图像的场景。 - 识别
- 处理语言
使用内置和自定义识别语言。 - 借助字典进行处理
使用字典来改善识别质量。 - 识别带空格的词汇
使用字典来识别带空格的词汇(例如 New York 等)。 - 手写体识别
使用 ICR(智能字符识别)。 - 识别复选标记
设置复选标记及复选标记组的识别。 - 处理已识别的数据
另请参阅
7/3/2024 8:50:10 AM