文档分类
文档分类的目的是将文档分配给不同的预定义类别。处理包含多类文档的文档流,并且需要确定每个文档的类型时,这会很有用。例如,您可能需要将合同、发票和收据分类放入不同的文件夹中,或者根据其类型重命名它们。这可以通过预先训练的系统自动完成。
文档分类的主要功能之一,是让您提前知道需要区分的文档类型。ABBYY FineReader Engine 可以根据内容、图像特点对文档进行分类,或者同时考虑已识别的文本和图像的特征。
我们来详细考虑下这个过程。它由两个主要步骤组成:
- 创建分类数据库
对于每个类别,选择多个典型文档或页面。它们将被用来创建分类数据库。
- 对文档进行分类
上一步创建的数据库可用来对文档进行分类。将传入文档馈送到经过预先训练的分类系统后,该系统会使用分类数据库来确定类别。
您也可能需要根据文档的某些属性(例如作者或者条形码值)对文档进行分类。本文不关注此类分类。如果想要根据其属性对文档进行分类,则应该实施自己的算法,可以使用 文本提取、字段别识别 或者 条形码识别 场景进行数据提取。
下述程序也由分类 代码示例。
场景实现
下面详细介绍了使用 ABBYY FineReader Engine 对文件进行分类的推荐方法。
第1步加载 ABBYY FineReader Engine
第2步创建 ClassificationEngine
第3步准备分类对象
第4步创建训练数据集
第5步训练分类模型
第6步对文档进行分类
第7步卸载 ABBYY FineReader Engine
所需资源
您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:
内核
Core.Resources
打开
打开,处理
处理
Processing.Classification
Processing.Classification.NaturalLanguages
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
其他优化
以下文章提供了有关如何设置不同处理步骤的更多信息:
- 打开预处理图像
- 图像预处理
说明 ABBYY FineReader Engine 用于处理图像的场景。 - 识别
- 使用 ABBYY FineReader Engine 进行平行处理
要快速为带有文本特征的分类器准备已识别文档或者页面,请使用平行处理进行识别,然后关闭多重处理以进行分类。
另请参阅
03.07.2024 8:50:25