Chinese Simplified (简体中文)

文档分类

文档分类的目的是将文档分配给不同的预定义类别。处理包含多类文档的文档流,并且需要确定每个文档的类型时,这会很有用。例如,您可能需要将合同、发票和收据分类放入不同的文件夹中,或者根据其类型重命名它们。这可以通过预先训练的系统自动完成。

文档分类的主要功能之一,是让您提前知道需要区分的文档类型。ABBYY FineReader Engine 可以根据内容、图像特点对文档进行分类,或者同时考虑已识别的文本和图像的特征。

我们来详细考虑下这个过程。它由两个主要步骤组成:

  1. 创建分类数据库

对于每个类别,选择多个典型文档或页面。它们将被用来创建分类数据库。

  1. 对文档进行分类

上一步创建的数据库可用来对文档进行分类。将传入文档馈送到经过预先训练的分类系统后,该系统会使用分类数据库来确定类别。

您也可能需要根据文档的某些属性(例如作者或者条形码值)对文档进行分类。本文不关注此类分类。如果想要根据其属性对文档进行分类,则应该实施自己的算法,可以使用 文本提取字段别识别 或者 条形码识别 场景进行数据提取。

下述程序也由分类 演示工具予以展示。

场景实现

下面详细介绍了使用 ABBYY FineReader Engine 对文件进行分类的推荐方法。

第1步加载 ABBYY FineReader Engine

第2步创建 ClassificationEngine

第3步准备分类对象

第4步创建训练数据集

第5步训练分类模型

第6步对文档进行分类

第7步卸载 ABBYY FineReader Engine

所需资源

您可以使用 FREngineDistribution.csv 文件来自动创建应用程序正常工作所需的文件列表。若要用该方案进行处理,请在栏5 (RequiredByModule) 中对以下值进行选择:

内核

Core.Resources

打开

打开,处理

处理

Processing.Classification

Processing.Classification.NaturalLanguages

Processing.OCR

Processing.OCR, Processing.ICR

Processing.OCR.NaturalLanguages

Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages

如果修改标准场景,请相应更改所需的模块。您还需要指定界面语言、识别语言和应用程序使用的任何其他功能( 例如,如果需要打开 PDF 文件,则使用 Opening.PDF;如果需要识别 CJK 语言中的文本,则使用 Processing.OCR.CJK)。请参阅 借助 FREngineDistribution.csv 文件处理 进一步了解详情。

其他优化

以下文章提供了有关如何设置不同处理步骤的更多信息:

另请参阅

基本使用场景实现

17.09.2024 15:14:41

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.