文档存档
此场景用于处理纸质文档以将它们存为数字存档,特别是在创建合同、项目文件、发票、证书等的存档时。
在此处理场景下,会将纸质文档转换成不可编辑的数字副本,此类副本采用可搜索的格式并包含所有文档信息。经过此类处理后,人们可以使用全文搜索在电子存档中轻松查找文档的数字副本,可以复制文档中的文本片段,还可通过电子邮件发送文档或是将文档打印出来。
如需创建数字副本,文档首先需要经过数个处理步骤,每个步骤都有自己的具体特点:
- 对扫描的图像进行预处理
扫描的图像在识别之前可能需要一些预处理,例如在扫描的文档包含背景噪声、歪斜文本、反转颜色、黑色页边、错误的方向或分辨率等情况下。
- 同时识别大量文档
要从文档提取文本数据,就必须对文档进行识别。处理大量文档时,同时处理会很有用。在此情况下,分析和识别工作负载会分布于处理器内核之间,从而可以加快处理速度。
- 导出为存档格式
已识别的文档会保存为合适的存储格式。最便于存储文档的格式是 PDF、PDF/A、以及有 MRC 的 PDF 和 PDF/A。保存为这些格式时,可以采用将文本置于文档图像下方的模式,这样能够完整保留文档格式并提供全文搜索。MRC 设置可在不降低视觉质量的前提下大幅缩小文件大小。此外,保存为 PDF 格式时,可以自定义文档的安全设置,防止未经授权的查看和打印。
场景实现
下面详细介绍了使用 ABBYY FineReader Engine 12 创建用于存档的文档数字副本的推荐方法。建议方法中采用了最能实现这一用途的处理设置。该例实施中省略了文档扫描步骤。请参阅下文 针对具体任务的其他优化 ,以了解关于如何实施扫描的提示。
第1步加载 ABBYY FineReader Engine
第2步加载方案设置
第3步加载和预处理图像
第4步文档识别
第5步文档导出
第6步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
导出
导出,处理
Export.Pdf
Export.Pdf, Opening.Pdf
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
针对具体任务的其他优化
以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息
- 扫描
- 文档扫描提示
从扫描纸质文档获取优质图像。 - 打开和预处理
- 图像预处理
对初步准备图像和增强其视觉质量的 ABBYY FineReader Engine 场景的说明。 - 识别
- 微调页面预处理、分析、识别和合成参数
使用分析、识别和合成参数的对象自定义文档处理。 - PageProcessingParams 对象
该对象可以自定义分析和识别参数。通过该对象,您可以指出必须检测哪些图像和文本特征(反转图像、方向、条形码、识别语言、识别误差容限)。 - SynthesisParamsForPage 对象
该对象包含负责在合成期间恢复页面格式的参数。 - SynthesisParamsForDocument 对象
该对象可让您自定义文档合成:恢复其结构和格式。 - MultiProcessingParams 对象
在处理大量图像时,同时处理可能会很有用。在此情况下,图像打开和预处理、布局分析、识别和导出期间,处理负载在处理器内核之间分布,从而可以加快处理速度。
读取模式(同时或者连续)使用 MultiProcessingMode 属性进行设置,RecognitionProcessesCount 属性控制可被启动的进程数量。 - 导出
- 导出参数调整
使用导出参数的对象自定义文档导出。 - PDFExportParams 对象
通过该对象,您只需使用少量几个参数即可调整 PDF (PDF/A) 导出。 - 要自定义 PDF (PDF/A) 格式导出模式,请使用 PDFExportParams 对象的 TextExportMode 属性;若要定义 MRC 设置,请使用 MRCMode 属性。
- 此外,还可以自定义图像导出设置,以确保加快处理速度、进一步缩小文件大小等。例如,如果符合您的场景,可以将彩色图像保存为灰度或者黑白图像(使用PDFExportParams 对象的 Colority 属性)。
- 您可以通过这种方式更改图像分辨率,以便随后在打印机上打印或者在计算机屏幕上查看生成的副本;或者,也可以选择低分辨率,这种情况下只允许读取文本,图形质量也很差(使用 PDFExportParams 对象的 Resolution 和 ResolutionType 属性)。
- 拆分为文档
- 在此场景下,可能必须将成批图像拆分成文档。ABBYY FineReader Engine 12 不支持自动文档拆分。不过,您可以使用 ABBYY FlexiCapture Engine 实施自动拆分。例如,可以根据文档的页数或根据带有拆分条形码的页面来拆分文档。实施条形码拆分时,可以使用 仅从文档提取条形码值的场景。
另请参阅
03.07.2024 8:50:25