Chinese Simplified (简体中文)

文档比对

处理纸质文档时,需要查找和纠正错误或是刻意修改。使用文档比对 API 可以快速高效地搜索这些改动之处。

此场景用于比对具有特殊重要性的文档(例如合同和银行文件)与其副本。比对结果包含有关内容类型差异(仅限文本)、修改种类(删除、插入或修改)及其在原始文档和副本中位置的信息。您可以获得检测到的差异或改动区域的列表,并将比对结果保存到外部文件以供进一步处理或长期存储。

如需比较文档或页面,通过扫描获得或以电子格式保存的文件通常要经过数个处理步骤,每个步骤都有自己的具体特点:

  1. 扫描文件或者图像的预处理

如果文件及其副本包含一些缺陷或者有意为之的记号(例如签名或戳记),则需要在识别之前进行一些预处理。

  1. 识别并完全修复文档结构和格式

在识别文档时,文档的各种布局元素(文本、表格、图像、分隔符等)也会被识别出来。在文档合成过程中,文档的逻辑结构得以恢复,而页面合成可以完全恢复文档的格式(字体、样式等)。

  1. 文档或者页面比对

要比对文档或页面与其副本,请使用 使用 ABBYY FineReader Engine 识别的文件。您可以比对同一文档的两个格式不同的版本。进行比对后,您会获得包含改动列表的结果,可以用它检索有关改动位置的信息。如果使用手动校验,请使用这些信息突出显示文本中的改动之处,从而让操作人员的工作更加轻松省力。

  1. 导出到外部格式

您也可以将比对结果保存为 XML 和 DOCX 格式。

下述程序也由 文档比对 示例。

场景实现

下面详细介绍了在此场景中使用 ABBYY FineReader Engine 的推荐方法。

第1步加载 ABBYY FineReader Engine

第2步加载和预处理文件和图像

第3步文档识别

第4步比对文档或页面

第5步处理检测到的更改

第6步导出比对结果

第7步卸载 ABBYY FineReader Engine

所需资源

您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:

内核

Core.Resources

打开

打开,处理

处理

Processing.OCR

Processing.OCR, Processing.ICR

Processing.OCR.NaturalLanguages

Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages

导出

导出,处理

如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能 (例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。

对于具体任务的额外优化

以下是指南文件中的相关章节,您可以在其中找到不同处理步骤参数设置的更多信息

另请参阅

基本使用场景实现

03.07.2024 8:50:10

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.