Chinese Simplified (简体中文)

配置文件的处理

ABBYY FineReader Engine 支持多种参数,允许用户微调 Engine。用户可指定图像预处理、分析、识别、合成和导出参数,以获得最佳的处理速度和质量。例如,如果应用程序要将识别结果导出为 TXT格式,其与页面布局无关,因此可以禁用许多与布局相关的属性。

直接或间接借助 Engine 对象的创建方法创建新对象时,新创建对象的属性通常会设为合理的默认值(要了解属性默认值的更多信息,请参见相应属性说明)。但是对于不同的场景而言,默认值并不总为最佳设置。对于有些情况,您可能需要更改默认属性。对此,可以通过 API 或借助配置文件完成。配置文件包含对象属性的新默认值列表。

预定义配置文件

ABBYY FineReader Engine 提供用于主要使用场景的预定义配置文件集 (各个预定义配置文件的完整规格的说明请参见预定义配置文件规格)。配置文件中提供的设置在其对应情况下可发挥最佳效果。此外,大多数配置文件可以呈现以下两种形式:提供以最终文档质量为导向的设置,或以处理速度为导向的设置。关于预定义配置文件的说明请参见下表:

配置文件名称 说明
DocumentConversion_Accuracy

适合 转换文档 为可编辑格式(例如 RTF、DOCX)。设置已就处理速度进行了优化:

  • 最佳质量。启用字体样式检测和文档逻辑结构的完全合成。
DocumentConversion_Speed

适合 转换文档 为可编辑格式(例如 RTF、DOCX)。设置已就处理速度进行了优化:

  • 最佳质量。启用字体样式检测和文档逻辑结构的完全合成。
  • 文档分析和识别进程已加速。
DocumentArchiving_Accuracy

适用于创建 电子存档 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A)。设置已就准确度进行了优化:

  • 启用对图像上最大文本的检测,包括嵌入图像中的文本。
  • 不执行文档逻辑结构的完全合成。

重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。

DocumentArchiving_Speed

适用于创建 电子存档 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A格式)。设置已就处理速度进行了优化:

  • 启用对图像上最大文本的检测,包括嵌入图像中的文本。
  • 不执行歪斜校正。
  • 不执行文档逻辑结构的完全合成。
  • 文档分析和识别进程已加速。

重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。

BookArchiving_Accuracy

适合创建 电子库 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A)。设置已就准确度进行了优化:

  • 最佳质量。启用字体样式检测和文档逻辑结构的完全合成。
BookArchiving_Speed

适合创建 电子库 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A)。设置已就处理速度进行了优化:

  • 最佳质量。启用字体样式检测和文档逻辑结构的完全合成。
  • 文档分析和识别进程已加速。
TextExtraction_Accuracy

适合从文档 提取文本。设置已就准确度进行了优化:

  • 启用对图像上所有文本的检测,包括低质量的小文本区域(不检测图片和表格)。
  • 不执行文档逻辑结构的完全合成。

重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。

TextExtraction_Speed

适合从文档 提取文本。设置已就处理速度进行了优化:

  • 启用对图像上所有文本的检测,包括低质量的小文本区域(不检测图片和表格)。
  • 不执行文档逻辑结构的完全合成。
  • 文档分析和识别进程已加速。

重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。

FieldLevelRecognition 适用于 识别短文本片段。当前该配置文件具有默认设置。
BarcodeRecognition_Accuracy

适用于 条形码提取。只提取条形码(不检测文本、图片或表格)。设置已经准确度优化。

为了避免兼容性问题,您也可以通过 BarcodeRecognition 名称访问该配置文件。

重要事项! 该配置文件需要许可证中提供的 条形码自动定位 模块。

BarcodeRecognition_Speed

适用于 条形码提取。只提取条形码(不检测文本、图片或表格)。设置已经处理速度优化。

重要事项! 该配置文件需要许可证中提供的 条形码自动定位 模块。

HighCompressedImageOnlyPdf

适用于创建包含将整个文档保存为图片的高度压缩 PDF 文件。可使用以下设置:

  • 不执行对文档的逻辑结构进行文档识别和合成。
  • 不执行歪斜校正。
  • 优化PDF 导出获得导出文件的最小尺寸。
  • 将整个文档另存为图片(PEM_ImageOnly 模式)。
BusinessCardsProcessing

适用于 识别名片。可进行以下设置:

  • 只检测名片。
  • 启用对图像上所有文本的检测,包括低质量的小文本区域(不检测图片和表格)。
  • 不执行分辨率校正。
  • 不执行文档逻辑结构的完全合成。
MachineReadableZone

适合 从机读区 (MRZ) 提取数据。可进行以下设置:

  • 启用检测和提取图像上的所有文本(不检测图片、矢量图像和表格)。
  • 不自动执行分辨率和几何校正。
EngineeringDrawingsProcessing

适合识别技术图纸。它不仅考虑到了工程图表的大型尺寸和复杂性,还考虑到了图像内文本方向不同的可能性。该配置文件旨在将此类图像转换为可搜索的PDF格式。可进行以下设置:

  • 启用对图像上所有文本的检测,包括垂直方向的文本块。
  • 不执行文档逻辑结构的完全合成。

重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。

Version9Compatibility 考虑到兼容性问题,可将处理参数设为 ABBYY FineReader Engine 9.0 的默认值。
Default 将所有处理参数设为默认值。

与这些配置文件一起提供的设置可以使用 Engine 对象的 LoadPredefinedProfile 方法进行加载。配置文件加载后,新创建的对象将拥有配置文件中指定的新默认值。

注:

  • 预定义配置文件可以在分发包的 Libraries/PredefinedProfiles 文件夹中找到。
  • 若要确定哪些资源文件在借助 FREngineDistribution.csv 文文件运行的应用程序中发挥作用,请参考对应所选方案的页面。
  • 对于 HighCompressedImageOnlyPdf、 EngineeringDrawingsProcessing 和 Version9Compatibility 配置文件,请在列5 (RequiredByModule) 中选择以下值:

内核

Core.Resources

打开

打开,处理

处理

Processing.OCR

Processing.OCR, Processing.ICR

Processing.OCR.NaturalLanguages

Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages

导出

导出,处理

Export.Pdf

Export.Pdf, Opening.Pdf

您还需要指定界面语言、识别语言和应用程序使用的任何其它功能 (例如,如需要打开 PDF 文件,则为 Opening.PDF,如需识别 CJK 语言中的文本,则是 Processing.OCR.CJK)。请参见 借助 FREngineDistribution.csv 文件处理 进一步了解详情。

用户配置文件

您也可以创建自己的配置文件。配置文件的语法与 *.ini 文件的语法类似。以分号开头的行可用来添加注释。

这些部分包含需重新配置属性的对象名称;键中包含具有新值的属性。名为 UserData 的特殊部分可以包含任何用户定义的键。Boolean 属性的值由字符串 "true" 或者 "false" 表示,而枚举属性由相应的常量表示,例如:

[PrepareImageMode]
DiscardColorImage = true
[PDFExportParams]
TextExportMode = PEM_ImageOnText
;这是条注释
[RecognizerParams]
TextLanguage = English,Russian
    

Engine 对象的 LoadProfile 方法,您可以加载用户配置文件。加载该文件后,新创建的对象将具有文件中指定的新默认值。从配置文件获取参数类似于在程序代码中配置相应属性,但是它可简化应用程序中的逻辑和数据。如果将一个空字符串传送至 IEngine::LoadProfile,则会启用标准默认值。

创建相应对象时,会检查属性的新值是否正确及其是否符合许可证。

配置文件可用来重新指定以下对象的所有属性:

1 若要设置 PictureExportParamsPaperSizeParams 对象的属性,请在导出参数对象的部分中直接指定参数(不在PictureExportParams 或 PaperSizeParams 部分中)。因此,您可以为不同的导出格式配置不同的设置。例如,若要为 RTF 文件指定灰度图片格式,可如下操作:

[RTFExportParams]
GrayPictureFormats = GPF_Png
    

2 若要设置 DocumentContentInfoWritingParams 对象的属性,请在其父级对象部分中直接指定参数。对于 PDF 格式,则设置 PDFExportFeatures 对象;对于其它格式则设置相应的导出参数对象。因此,您可以为不同的导出格式指定不同的内容信息设置。例如,如果您不想将文档作者写入输出 PDF 文件中,请将以下行插入配置文件中:

[PDFExportFeatures]
WriteAuthor = false
    

3 若要设置 PageMargins 对象的属性,请在其父级对象部分中直接指定参数。请注意必须在页边距值之前将 UseCustomPageMargins 属性指定为TRUE,如下面示例所述:

[RTFExportParams]
UseCustomPageMargins = true
PageMargins.Left = 5000
PageMargins.Right = 5000
PageMargins.Top = 5000
PageMargins.Bottom = 5000

    

同时使用预定义配置文件和用户配置文件

可以同时加载一个预定义配置文件和一个用户配置文件。用户配置文件的优先级高于预定义配置文件,即如果用户配置文件和预定义配置文件设置同一个参数,则会优先使用用户配置文件的值。

如果再加载一个预定义配置文件,这个新配置文件将替代之前的预定义配置文件。与此类同,新的用户配置文件将替代之前的用户配置文件。请注意,加载配置文件会清理当前的识别会话(即 IEngine::CleanRecognizerSession 方法会被自动调用)。

另请参阅

微调页面预处理、分析、识别和合成参数

导出参数调整

03.07.2024 8:50:10

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.