Chinese Simplified (简体中文)

文档存档

此场景用于处理纸质文档以将它们存为数字存档,特别是在创建合同、项目文件、发票、证书等的存档时。

在此处理场景下,会将纸质文档转换成不可编辑的数字副本,此类副本采用可搜索的格式并包含所有文档信息。经过此类处理后,人们可以使用全文搜索在电子存档中轻松查找文档的数字副本,可以复制文档中的文本片段,还可通过电子邮件发送文档或是将文档打印出来。

如需创建数字副本,文档首先需要经过数个处理步骤,每个步骤都有自己的具体特点:

  1. 对扫描的图像进行预处理

扫描的图像在识别之前可能需要一些预处理,例如在扫描的文档包含背景噪声、歪斜文本、反转颜色、黑色页边、错误的方向或分辨率等情况下。

  1. 同时识别大量文档

要从文档提取文本数据,就必须对文档进行识别。处理大量文档时,同时处理会很有用。在此情况下,分析和识别工作负载会分布于处理器内核之间,从而可以加快处理速度。

  1. 导出为存档格式

已识别的文档会保存为合适的存储格式。最便于存储文档的格式是 PDF、PDF/A、以及有 MRC 的 PDF 和 PDF/A。保存为这些格式时,可以采用将文本置于文档图像下方的模式,这样能够完整保留文档格式并提供全文搜索。MRC 设置可在不降低视觉质量的前提下大幅缩小文件大小。此外,保存为 PDF 格式时,可以自定义文档的安全设置,防止未经授权的查看和打印。

场景实现

下面详细介绍了使用 ABBYY FineReader Engine 12 创建用于存档的文档数字副本的推荐方法。建议方法中采用了最能实现这一用途的处理设置。该例实施中省略了文档扫描步骤。请参阅下文 针对具体任务的其他优化 ,以了解关于如何实施扫描的提示。

第1步加载 ABBYY FineReader Engine

第2步加载方案设置

第3步加载和预处理图像

第4步文档识别

第5步文档导出

第6步卸载 ABBYY FineReader Engine

所需资源

您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:

内核

Core.Resources

打开

打开,处理

处理

Processing.OCR

Processing.OCR, Processing.ICR

Processing.OCR.NaturalLanguages

Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages

导出

导出,处理

Export.Pdf

Export.Pdf, Opening.Pdf

如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。

针对具体任务的其他优化

以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息:

  • 扫描
    • 扫描
      ABBYY FineReader Engine 文档扫描场景说明。
    • 文档扫描提示
      从扫描纸质文档获取优质图像。
  • 打开和预处理
    • 图像预处理
      对初步准备图像和增强其视觉质量的 ABBYY FineReader Engine 场景的说明。
  • 识别
    • 微调页面预处理、分析、识别和合成参数
      使用分析、识别和合成参数的对象自定义文档处理。
    • PageProcessingParams 对象
      该对象可以自定义分析和识别参数。通过该对象,您可以指出必须检测哪些图像和文本特征(反转图像、方向、条形码、识别语言、识别误差容限)。
    • SynthesisParamsForPage 对象
      该对象包含负责在合成期间恢复页面格式的参数。
    • SynthesisParamsForDocument 对象
      该对象可让您自定义文档合成:恢复其结构和格式。
    • MultiProcessingParams 对象
      在处理大量图像时,同时处理可能会很有用。在此情况下,图像打开和预处理、布局分析、识别和导出期间,处理负载在处理器内核之间分布,从而可以加快处理速度。
      读取模式(同时或者连续)使用 MultiProcessingMode 属性进行设置,RecognitionProcessesCount 属性控制可被启动的进程数量。
  • 导出
    • 导出参数调整
      使用导出参数的对象自定义文档导出。
    • PDFExportParams 对象
      通过该对象,您只需使用少量几个参数即可调整 PDF (PDF/A) 导出。
    • 要自定义 PDF (PDF/A) 格式导出模式,请使用 PDFExportParams 对象的 TextExportMode 属性;若要定义 MRC 设置,请使用 MRCMode 属性。
    • 此外,还可以自定义图像导出设置,以确保加快处理速度、进一步缩小文件大小等。例如,如果符合您的场景,可以将彩色图像保存为灰度或者黑白图像(使用 PDFExportParams 对象的 Colority 属性)。
    • 您可以通过这种方式更改图像分辨率,以便随后在打印机上打印或者在计算机屏幕上查看生成的副本;或者,也可以选择低分辨率,这种情况下只允许读取文本,图形质量也很差(使用 PDFExportParams 对象的 ResolutionResolutionType 属性)。
  • 拆分为文档
    • 在此场景下,可能必须将成批图像拆分成文档。ABBYY FineReader Engine 12 不支持自动文档拆分。不过,您可以使用 ABBYY FlexiCapture Engine 实施自动拆分。例如,可以根据文档的页数或根据带有拆分条形码的页面来拆分文档。实施条形码拆分时,可以使用 仅从文档提取条形码值的场景。

另请参阅

基本使用场景实现

24.03.2023 8:51:52

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.