文本提取
该场景用来识别所有文档文本以便准备文档进行搜索和提取有用数据。
以下概述的步骤可以作为实施更复杂的过程的基础,这些过程将从文档提取必需的数据,特别是对于将纸质文档数据自动输入信息系统和数据库,和对于文档管理系统中的文档进行自动分类和编索引(例如,将发票输入会计软件,将问卷输入 CRM 系统)。
该场景支持提取文档的正文以及标识、印章和正文以外的任何元素上的文本。
如需提取文档的主要文本,通过扫描获得或者以电子格式保存的图像文件通常要经过多个处理阶段,每个阶段有自己的具体细节:
- 预处理扫描的图像或照片
已扫描图像在识别之前可能需要一些预处理,例如,如果已扫描文档包含背景噪音、歪斜文本、反转颜色、黑色边距、错误方向或者分辨率等。
- 识别文档图像上最大量的文字
执行图像识别使用的设置须确保从文档图像中找到并提取所有可能的文本。
处理后获取的文本可用来搜索重要数据(如何实施该搜索的操作方法不在本文的探讨范围内)。可以设计特殊算法来查询关键词,例如表单字段的标题、表格、行和表格列、签名和戳记字段等等。包含重要数据的字段可以通过关键词查找,然后根据数据类型使用特殊的识别参数进行重新读取。您也可以检查它们是否与数据类型一致和符合必需限制。
提取的数据可以保存到数据库,不可编辑的纸质文档副本可以放在数字存档库中。
方案实施
下面内容详细说明了在该场景中使用 ABBYY FineReader Engine 12 的建议方法。建议的方法使用最适合该场景的处理设置。
第1步加载 ABBYY FineReader Engine
第2步加载方案设置
第3步加载和预处理图像
第4步文档识别
第5步搜索重要信息
第6步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参见 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
针对具体任务的其他优化
- 打开和预处理
- 图像预处理
用于图像初步准备工作的 ABBYY FineReader Engine 场景说明。 - 识别
- 微调页面预处理、分析、识别和合成参数
使用分析、识别和合成参数的对象自定义文档处理。 - PageProcessingParams 对象
该对象可让您自定义分析和识别参数。通过使用该对象,您可以指出必须检测哪些图像和文本特点(翻转图像,方向,条形码,识别语言,识别误差)。 - SynthesisParamsForPage 对象
该对象包括负责在合成期间恢复页面格式的参数。 - SynthesisParamsForDocument 对象
该对象可让您自定义文档合成:恢复其结构和格式。 - MultiProcessingParams 对象
同时处理可能会在处理大量图像时适用。在此情况下,处理负荷会于图像打开和预处理、布局分析和识别期间在处理器内核之间分布,使得可能加速处理。
读取模式(同时或者连续)使用 MultiProcessingMode 属性进行设置。RecognitionProcessesCount 属性控制可被启动的进程数量。 - 搜索重要信息
- 使用针对指定数据类型的特殊参数重新读取文档
- 字段别识别
文本短片段识别场景说明。 - 保存数据
- 保存已识别文档可以使用 FRDocument 对象的 Export 或 ExportPages 方法,做法是将 FileExportFormatEnum 常数分派为一个参数。
- 文档存档。
将文档保存为电子副本的场景说明。
另请参阅
7/3/2024 8:50:25 AM