书籍存档
此场景用于处理书籍、杂志、报纸以创建电子图书馆;例如,纸质书籍实现数字化,以方便更多人查阅并便于保存。
在此场景下,会将书籍、杂志、报纸转换成不可编辑的数字副本,此类副本采用可搜索的格式并包含来自相应来源的所有信息。经过此类处理后,人们可以使用全文搜索在电子图书馆中轻松找到数字副本。与 文档存档 场景的主要区别在于,处理过程中特别注重保持已识别文本的质量和恢复文档的结构元素,尤其是内容。
要创建电子副本,通过扫描获得或者保存为电子格式的图像文件首先需要经过数个处理步骤,每个步骤都有自己的具体特点:
- 扫描图像的预处理
通过扫描获得的图像在识别之前可能需要一些预处理。例如,扫描书籍的图像可能需要拉直折线附近歪斜的行、去除折线暗影、将对页图像拆分成两个单独页面。
- 识别书籍和报纸并完全修复文档结构
要从文档中提取文本数据,需要先对文档进行识别。识别书籍和报纸时,恢复文档的逻辑结构特别重要。处理大量文档时,同时处理会很有用。在此情况下,分析和识别期间,文档负载会分布于处理器内核之间,从而可以加快处理速度。
- 导出为存档格式
将已识别文档保存为用于存储数据的格式。最便于在电子图书馆中存储文档的格式是 PDF、PDF/A、以及有 MRC 的 PDF 和 PDF/A。保存为这些格式时,可以采用将文本置于文档图像下方的模式,这样能够完整保留文档格式并提供全文搜索。MRC 设置可在不降低视觉质量的前提下大幅缩小文件大小。此外,保存为 PDF 格式时,可以自定义文档的安全设置,防止未经授权的查看和打印。
场景实施
下面详细介绍了在此场景中使用 ABBYY FineReader Engine 12 的推荐方法。建议方法采用了最适合上述场景的处理设置。
第1步加载 ABBYY FineReader Engine
第2步为以上方案加载设置
第3步加载和预处理图像
第4步文档识别
第5步文档导出
第6步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
导出
导出,处理
Export.Pdf
Export.Pdf, Opening.Pdf
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
针对具体任务的其他优化
以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息
- 打开和预处理
- 图像预处理
对初步准备图像或增强其视觉质量的 ABBYY FineReader Engine 场景的说明。 - 识别
- 微调页面预处理、分析、识别和合成参数
使用分析、识别和合成参数的对象自定义文档处理。 - PageProcessingParams 对象
该对象可以自定义分析和识别参数。通过该对象,您可以指出必须检测哪些图像和文本特征(反转图像、方向、条形码、识别语言、识别误差容限)。 - SynthesisParamsForPage 对象
该对象包含负责在合成期间恢复页面格式的参数。 - SynthesisParamsForDocument 对象
该对象可让您自定义文档合成:恢复其结构和格式。 - MultiProcessingParams 对象
在处理大量图像时,同时处理可能会很有用。在此情况下,图像打开和预处理、布局分析、识别和导出期间,处理负载在处理器内核之间分布,从而可以加快处理速度。
对于读取模式(同时或者连续),可以通过 MultiProcessingMode 属性对其进行设置。RecognitionProcessesCount 属性控制可被启动的进程数量。 - 导出
- 导出参数调整
使用导出参数的对象自定义文档导出。 - PDFExportParams 对象
通过该对象,您只需使用少量几个参数即可调整 PDF (PDF/A) 导出。 - 要自定义 PDF (PDF/A) 格式导出模式,请使用 PDFExportParams 对象的 TextExportMode 属性;若要自定义 MRC 设置,使用 MRCMode 属性。
另请参阅
03.07.2024 8:50:25