文档比对
处理纸质文档时,需要查找和纠正错误或是刻意修改。使用文档比对 API 可以快速高效地搜索这些改动之处。
此场景用于比对具有特殊重要性的文档(例如合同和银行文件)与其副本。比对结果包含有关内容类型差异(仅限文本)、修改种类(删除、插入或修改)及其在原始文档和副本中位置的信息。您可以获得检测到的差异或改动区域的列表,并将比对结果保存到外部文件以供进一步处理或长期存储。
如需比较文档或页面,通过扫描获得或以电子格式保存的文件通常要经过数个处理步骤,每个步骤都有自己的具体特点:
- 扫描文件或者图像的预处理
如果文件及其副本包含一些缺陷或者有意为之的记号(例如签名或戳记),则需要在识别之前进行一些预处理。
- 识别并完全修复文档结构和格式
在识别文档时,文档的各种布局元素(文本、表格、图像、分隔符等)也会被识别出来。在文档合成过程中,文档的逻辑结构得以恢复,而页面合成可以完全恢复文档的格式(字体、样式等)。
- 文档或者页面比对
要比对文档或页面与其副本,请使用 使用 ABBYY FineReader Engine 识别的文件。您可以比对同一文档的两个格式不同的版本。进行比对后,您会获得包含改动列表的结果,可以用它检索有关改动位置的信息。如果使用手动校验,请使用这些信息突出显示文本中的改动之处,从而让操作人员的工作更加轻松省力。
- 导出到外部格式
您也可以将比对结果保存为 XML 和 DOCX 格式。
下述程序也由 文档比对 演示工具予以展示。
场景实现
下面详细介绍了在此场景中使用 ABBYY FineReader Engine 的推荐方法。
第1步加载 ABBYY FineReader Engine
第2步加载和预处理文件和图像
第3步文档识别
第4步比对文档或页面
第5步处理检测到的更改
第6步导出比对结果
第7步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
导出
导出,处理
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能 (例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
对于具体任务的额外优化
以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息
- 扫描
- 扫描
ABBYY FineReader Engine 文档扫描方案说明。 - 打开和预处理
- 图像预处理
对初步准备图像或增强其视觉质量的 ABBYY FineReader Engine 场景的说明。 - 识别
- 微调页面预处理、分析、识别和合成参数
使用分析、识别和合成参数的对象自定义文档处理。 - PageProcessingParams 对象
该对象可以自定义分析和识别参数。通过该对象,您可以指出必须检测哪些图像和文本特征(反转图像、方向、条形码、识别语言、识别误差容限)。 - SynthesisParamsForPage 对象
该对象包含负责在合成期间恢复页面格式的参数。 - SynthesisParamsForDocument 对象
该对象可让您自定义文档合成:恢复其结构和格式。 - MultiProcessingParams 对象
在处理大量图像时,同时处理可能会很有用。在此情况下,图像打开和预处理、布局分析、识别和导出期间,处理负载在处理器内核之间分布,从而可以加快处理速度。
读取模式(同时或者连续)使用 MultiProcessingMode 属性进行设置。RecognitionProcessesCount 属性控制可被启动的进程数量。
另请参阅
9/17/2024 3:14:41 PM