机读区域捕捉
许多国家的官方旅行或者身份证件包含一个机读区域 (MRZ),确保更准确地处理证件数据。MRZ 包括 2 或 3 行OCR-B 字体文本,根据 ICAO Document 9303 写成(请参阅 ICAO 网站上的规范)。
该场景用于在客户登机或者验证过程中从 ID 文档上的机读区域提取数据。系统识别证件上的 MRZ 然后从其提取数据。提取的数据包含多个字段,其中有关于证件及其拥有人的个人信息(证件类型和到期日期,证件拥有人的姓氏名字等等。)您可以搜索字段,验证数据,并将其保存到外部文件以供进一步处理。
如需从 MRZ 提取数据,通过扫描获得或者以电子格式保存的图像文件通常要经过多个处理阶段,每个阶段有自己的具体细节:
- 预处理扫描的图像或照片
您可以扫描或者拍照有 MRZ 的 ID 证件的身份页面。用移动设备的数字摄像头拍的照片的分辨率和质量可能比较低。而且,图像在识别前可能需要一些预处理。
- 从 MRZ 提取数据
从每个图像可以捕捉不超过一个 MRZ。将识别并解析 2 或 3 行中的每一行的文本以提取数据字段。有些字段和 MRZ 作为整体有校验和,可以帮助您验证数据。
- 导出到外部文件
您也可以用外部格式保存提取的数据:支持XML 和 JSON。
以下描绘的过程在 MRZExtraction 代码示例中得以实施。
实现场景
下面内容详细说明了在该场景中使用 ABBYY FineReader Engine 12 的建议方法。建议的方法使用最适合该场景的处理设置。
第1步加载 ABBYY FineReader Engine
第2步加载场景设置
第3步加载和预处理证件图像
第4步从 MRZ 提取数据
第5步处理提取的数据
第6步导出提取的数据
第7步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
导出
导出,处理
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其它功能( 例如,需要打开 PDF 文件的话则是 Opening.PDF)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
其他优化
以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息:
- 加载 Engine
- 配置文件的处理
提供预定义和用户配置文件的详细说明。 - 打开预处理图像
- 图像预处理
说明使用 ABBYY FineReader Engine 来预处理图像的场景。 - 识别
- 微调页面预处理、分析、识别和合成参数
使用预处理、分析、识别和合成参数的对象自定义文档处理。 - 处理提取的数据
另请参阅
7/3/2024 8:50:25 AM