文档转换
此场景下可获得一个可编辑的文档版本。
在该场景下,将识别文档图像,完整地保留所有原始格式,并且将数据存为可编辑的文件格式。这样您就能得到可编辑的文档版本,可以轻松检查错误和修改。您还可以复制全部或部分文本,以备重新使用。
一份文档要经过数个处理步骤,这些步骤在某些方面与其他常见情况略有不同:
- 对扫描的图像或照片进行预处理
通过扫描仪或数码相机获得的图像可能需要进行一些调整,才能进行光学识别。例如,噪声图像或有扭曲文本行的图像需要作出某些修正,才能成功地进行光学识别。
- 识别并完全修复文档结构和格式
在识别文档时,文档的各种布局元素(文本、表格、图像、分隔符等)也会被识别出来。在文档合成过程中,文档的逻辑结构得以恢复,而页面合成可以完全恢复文档的格式(字体、样式等)。
- 导出到可编辑格式
识别的文档会存为可编辑的格式,如RTF、DOCX。
场景实现
下面详细介绍了使用ABBYY FineReader Engine 12 转换文档的推荐方法。建议方法中采用了最能实现这一用途的处理设置。
第1步加载 ABBYY FineReader Engine
第2步加载方案设置
第3步加载和预处理图像
第4步文档识别
第5步文档导出
第6步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
导出
导出,处理
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
对于具体任务的额外优化
以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息
- 打开和预处理
- 图像预处理
对于初步准备图像或增强其视觉质量的 ABBYY FineReader Engine 场景的说明。 - 识别
- 微调页面预处理、分析、识别和合成参数
使用分析、识别和合成参数的对象自定义文档处理。 - PageProcessingParams 对象
该对象可以自定义分析和识别参数。通过该对象,您可以指出必须检测哪些图像和文本特征(反转图像、方向、条形码、识别语言、识别误差容限)。 - SynthesisParamsForPage 对象
该对象包含负责在合成期间恢复页面格式的参数。 - SynthesisParamsForDocument 对象
该对象可以自定义文档合成:恢复其结构和格式。 - MultiProcessingParams 对象
在处理大量图像时,同时处理可能会很有用。在此情况下,图像打开和预处理、布局分析、识别和导出期间,处理负载在处理器内核之间分布,从而可以加快处理速度。
读取模式(同时或者连续)使用 MultiProcessingMode 属性进行设置。RecognitionProcessesCount 属性控制可被启动的进程数量。 - 导出
- 导出参数调整
使用导出参数的对象自定义文档导出。 - RTFExportParams 对象
该对象可让您自定义 RTF/DOCX/ODT 保存格式参数。 - HTMLExportParams 对象
该对象可让您自定义 HTML 格式导出。 - PPTExportParams 对象
用于自定义 PPTX 保存格式参数的对象。
另请参阅
03.07.2024 8:50:25