配置文件的处理
ABBYY FineReader Engine 支持多种参数,允许用户微调 Engine。用户可指定图像预处理、分析、识别、合成和导出参数,以获得最佳的处理速度和质量。例如,如果应用程序要将识别结果导出为 TXT格式,其与页面布局无关,因此可以禁用许多与布局相关的属性。
直接或间接借助 Engine 对象的创建方法创建新对象时,新创建对象的属性通常会设为合理的默认值(要了解属性默认值的更多信息,请参见相应属性说明)。但是对于不同的场景而言,默认值并不总为最佳设置。对于有些情况,您可能需要更改默认属性。对此,可以通过 API 或借助配置文件完成。配置文件包含对象属性的新默认值列表。
预定义配置文件
ABBYY FineReader Engine 提供用于主要使用场景的预定义配置文件集 (各个预定义配置文件的完整规格的说明请参见预定义配置文件规格)。配置文件中提供的设置在其对应情况下可发挥最佳效果。此外,大多数配置文件可以呈现以下两种形式:提供以最终文档质量为导向的设置,或以处理速度为导向的设置。关于预定义配置文件的说明请参见下表:
配置文件名称 | 说明 |
---|---|
DocumentConversion_Accuracy |
适合 转换文档 为可编辑格式(例如 RTF、DOCX)。设置已就处理速度进行了优化:
|
DocumentConversion_Speed |
适合 转换文档 为可编辑格式(例如 RTF、DOCX)。设置已就处理速度进行了优化:
|
DocumentArchiving_Accuracy |
适用于创建 电子存档 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A)。设置已就准确度进行了优化:
重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。 |
DocumentArchiving_Speed |
适用于创建 电子存档 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A格式)。设置已就处理速度进行了优化:
重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。 |
BookArchiving_Accuracy |
适合创建 电子库 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A)。设置已就准确度进行了优化:
|
BookArchiving_Speed |
适合创建 电子库 (转换为 PDF、PDF/A 和 有 MRC 的 PDF 和 PDF/A)。设置已就处理速度进行了优化:
|
TextExtraction_Accuracy |
适合从文档 提取文本。设置已就准确度进行了优化:
重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。 |
TextExtraction_Speed |
适合从文档 提取文本。设置已就处理速度进行了优化:
重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。 |
FieldLevelRecognition | 适用于 识别短文本片段。当前该配置文件具有默认设置。 |
BarcodeRecognition_Accuracy |
适用于 条形码提取。只提取条形码(不检测文本、图片或表格)。设置已经准确度优化。 为了避免兼容性问题,您也可以通过 BarcodeRecognition 名称访问该配置文件。 重要事项! 该配置文件需要许可证中提供的 条形码自动定位 模块。 |
BarcodeRecognition_Speed |
适用于 条形码提取。只提取条形码(不检测文本、图片或表格)。设置已经处理速度优化。 重要事项! 该配置文件需要许可证中提供的 条形码自动定位 模块。 |
HighCompressedImageOnlyPdf |
适用于创建包含将整个文档保存为图片的高度压缩 PDF 文件。可使用以下设置:
|
BusinessCardsProcessing |
适用于 识别名片。可进行以下设置:
|
MachineReadableZone |
适合 从机读区 (MRZ) 提取数据。可进行以下设置:
|
EngineeringDrawingsProcessing |
适合识别技术图纸。它不仅考虑到了工程图表的大型尺寸和复杂性,还考虑到了图像内文本方向不同的可能性。该配置文件旨在将此类图像转换为可搜索的PDF格式。可进行以下设置:
重要事项!该配置文件并非专门用于将文档转换为RTF、DOCX和PDF文本。 如需进行此类转换,请使用文档转换配置文件。 |
Version9Compatibility | 考虑到兼容性问题,可将处理参数设为 ABBYY FineReader Engine 9.0 的默认值。 |
Default | 将所有处理参数设为默认值。 |
与这些配置文件一起提供的设置可以使用 Engine 对象的 LoadPredefinedProfile 方法进行加载。配置文件加载后,新创建的对象将拥有配置文件中指定的新默认值。
注:
- 预定义配置文件可以在分发包的 Bin/PredefinedProfiles 文件夹中找到。
- 若要确定哪些资源文件在借助 FREngineDistribution.csv 文文件运行的应用程序中发挥作用,请参考对应所选方案的页面。
- 对于 HighCompressedImageOnlyPdf、 EngineeringDrawingsProcessing 和 Version9Compatibility 配置文件,请在列5 (RequiredByModule) 中选择以下值:
内核
Core.Resources
打开
打开,处理
处理
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
导出
导出,处理
Export.Pdf
Export.Pdf, Opening.Pdf
您还需要指定界面语言、识别语言和应用程序使用的任何其它功能 (例如,如需要打开 PDF 文件,则为 Opening.PDF,如需识别 CJK 语言中的文本,则是 Processing.OCR.CJK)。请参见 借助 FREngineDistribution.csv 文件处理 进一步了解详情。
用户配置文件
您也可以创建自己的配置文件。配置文件的语法与 *.ini 文件的语法类似。以分号开头的行可用来添加注释。
这些部分包含需重新配置属性的对象名称;键中包含具有新值的属性。名为 UserData 的特殊部分可以包含任何用户定义的键。Boolean 属性的值由字符串 "true" 或者 "false" 表示,而枚举属性由相应的常量表示,例如:
[PrepareImageMode]
DiscardColorImage = true
[PDFExportParams]
TextExportMode = PEM_ImageOnText
;这是条注释
[RecognizerParams]
TextLanguage = English,Russian
Engine 对象的 LoadProfile 方法,您可以加载用户配置文件。加载该文件后,新创建的对象将具有文件中指定的新默认值。从配置文件获取参数类似于在程序代码中配置相应属性,但是它可简化应用程序中的逻辑和数据。如果将一个空字符串传送至 IEngine::LoadProfile,则会启用标准默认值。
创建相应对象时,会检查属性的新值是否正确及其是否符合许可证。
配置文件可用来重新指定以下对象的所有属性:
1 若要设置 PictureExportParams 或 PaperSizeParams 对象的属性,请在导出参数对象的部分中直接指定参数(不在PictureExportParams 或 PaperSizeParams 部分中)。因此,您可以为不同的导出格式配置不同的设置。例如,若要为 RTF 文件指定灰度图片格式,可如下操作:
[RTFExportParams] GrayPictureFormats = GPF_Png
2 若要设置 DocumentContentInfoWritingParams 对象的属性,请在其父级对象部分中直接指定参数。对于 PDF 格式,则设置 PDFExportFeatures 对象;对于其它格式则设置相应的导出参数对象。因此,您可以为不同的导出格式指定不同的内容信息设置。例如,如果您不想将文档作者写入输出 PDF 文件中,请将以下行插入配置文件中:
[PDFExportFeatures]
WriteAuthor = false
3 若要设置 PageMargins 对象的属性,请在其父级对象部分中直接指定参数。请注意必须在页边距值之前将 UseCustomPageMargins 属性指定为TRUE,如下面示例所述:
[RTFExportParams]
UseCustomPageMargins = true
PageMargins.Left = 5000
PageMargins.Right = 5000
PageMargins.Top = 5000
PageMargins.Bottom = 5000
同时使用预定义配置文件和用户配置文件
可以同时加载一个预定义配置文件和一个用户配置文件。用户配置文件的优先级高于预定义配置文件,即如果用户配置文件和预定义配置文件设置同一个参数,则会优先使用用户配置文件的值。
如果再加载一个预定义配置文件,这个新配置文件将替代之前的预定义配置文件。与此类同,新的用户配置文件将替代之前的用户配置文件。请注意,加载配置文件会清理当前的识别会话(即 IEngine::CleanRecognizerSession 方法会被自动调用)。
另请参阅
7/3/2024 8:50:25 AM