Chinese Simplified (简体中文)

English (English)

文档分类

文档分类的目的是将文档分配给不同的预定义类别。处理包含多类文档的文档流，并且需要确定每个文档的类型时，这会很有用。例如，您可能需要将合同、发票和收据分类放入不同的文件夹中，或者根据其类型重命名它们。这可以通过预先训练的系统自动完成。

文档分类的主要功能之一，是让您提前知道需要区分的文档类型。ABBYY FineReader Engine 可以根据内容、图像特点对文档进行分类，或者同时考虑已识别的文本和图像的特征。

我们来详细考虑下这个过程。它由两个主要步骤组成：

创建分类数据库

对于每个类别，选择多个典型文档或页面。它们将被用来创建分类数据库。

对文档进行分类

上一步创建的数据库可用来对文档进行分类。将传入文档馈送到经过预先训练的分类系统后，该系统会使用分类数据库来确定类别。

您也可能需要根据文档的某些属性（例如作者或者条形码值）对文档进行分类。本文不关注此类分类。如果想要根据其属性对文档进行分类，则应该实施自己的算法，可以使用文本提取、字段别识别或者条形码识别场景进行数据提取。

下述程序也由分类代码示例。

场景实现

下面详细介绍了使用 ABBYY FineReader Engine 对文件进行分类的推荐方法。

第1步加载 ABBYY FineReader Engine

第2步创建 ClassificationEngine

第3步准备分类对象

第4步创建训练数据集

第5步训练分类模型

模型训练功能由 Trainer 对象提供。使用 ClassificationEngine 对象的 CreateTrainer 方法创建。

由两个子对象 TrainingParams 和 ValidationParams 包含分类器类型和训练程序的所有设置。决定需要哪些设置并更改相应属性：

分类器类型（ITrainingParams::ClassifierType）。该设置确定了分配类别时会考虑文档的哪些特征：图像特征、已识别文本的内容，或二者。要选择使用文本内容的类型，您需要确保已从之前识别的文档创建训练数据集中的所有分类对象。
训练模式（ITrainingParams::TrainingMode）。该设置确定了训练过程应该偏好高精度（所选元素有多少是正确的）、高调用（正确元素有多少被选），还是在两者之间寻求平衡。
是否应该使用 k-折交叉验证（IValidationParams::ShouldPerformValidation）。如果您训练的样本不大，那么我们建议使用交叉验证，因为这样一来，您可以在同一样本的不同分区上训练数个模型并选择最佳者。如果有大量已分类的数据，则最好关闭验证，在整个训练样本上训练模型，然后使用分类方法（第 6 步）在另一个样本上测试模型，计算您这边的性能分数。
k-折交叉验证参数：训练样本被分成的部分数量 (IValidationParams::FoldsCount) 和循环访问次数（IValidationParams::RepeatCount）。请注意，每次循环访问时训练集的所需对象数量对于文本分类器不小于4，对于合并分类器不小于8。请确保训练样本包含足够的对象。

现在，您已准备好训练模型了。将第4步配置的 TrainingData 对象传递到 Trainer 对象的 TrainModel 方法。它会返回一个 TrainingResults 集合，按照当前可用的功能，它只包含一个 TrainingResult。如果选择执行交叉验证，请在 ValidationResult 子对象中检查性能分数。

注：模型训练和分类将按顺序模式执行，与 IMultiProcessingParams::MultiProcessingMode 值无关。

ITrainingResult::Model 属性可实现对已训练分类模型的访问。可以借助 SaveToFile 方法将它存入文件中，或者直接用它对一些文档进行分类（继续执行第6步）。

第6步对文档进行分类

第7步卸载 ABBYY FineReader Engine

所需资源

您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理，请在栏5 (RequiredByModule) 中对以下值进行选择：

内核

Core.Resources

打开

打开，处理

处理

Processing.Classification

Processing.Classification.NaturalLanguages

Processing.OCR

Processing.OCR, Processing.ICR

Processing.OCR.NaturalLanguages

Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages

如果修改标准场景，请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能（例如，如果需要打开 PDF 文件，则使用 Opening.PDF；如果需要识别 CJK 语言中的文本，则使用 Processing.OCR.CJK）。请参阅借助 FREngineDistribution.csv 文件处理进一步了解详情。

其他优化

以下文章提供了有关如何设置不同处理步骤的更多信息：

打开预处理图像

图像预处理
说明 ABBYY FineReader Engine 用于处理图像的场景。

识别

使用 ABBYY FineReader Engine 进行平行处理
要快速为带有文本特征的分类器准备已识别文档或者页面，请使用平行处理进行识别，然后关闭多重处理以进行分类。

另请参阅

基本使用场景实现

03.07.2024 8:50:25

Your use of this site is conditioned on Your continued compliance with the Terms of Use.

Terms of Use

Disclaimer of Warranty

Limitation of Liability

Transmission and Submission of Information

Downloads

Use of Content

Trademarks

Links to Third-Party Sites

Foreign Legislation

Subscription Terms

Partner Subscription Terms