改善识别质量
识别质量不仅取决于图像的质量(请参见 源图像建议),还取决于识别设置。
打印类型
当识别草稿点矩阵打印稿或者打字文本时,可以通过选择合适的文本类型改善识别质量。您可以在 RecognizerParams 对象的 TextTypes 属性中指定文本类型。该属性的值默认为 TT_Normal,对应为普通的排版文字。不过,您也可以选择更具体的类型。
打字文本示例。所有字母均为相等宽度(比如说:比较"w"和"a")。对于该类型的文本,选择 TT_Typewriter。 | |
草稿点矩阵文本示例。字符行由点组成。对于该类型的文本,选择 TT_Matrix。 |
文档语言
ABBYY FineReader Engine 可识别单语和多语言(比如,用多种语言写成)文档。对于多语言文档,必须指定多种识别语言。英语是默认的识别语言。如要更改默认识别语言,需通过 RecognizerParams 对象的 SetPredefinedTextLanguage 方法。
扫描对页
比如,当扫描书籍的对页时,两页都将显示为单个图像。
若要改善识别质量,可将对页拆分为两个单独图像。您也可以通过 IFRDocument::SplitPages 方法对此类页面进行自动拆分。您可以通过 IFRPage::FindPageSplitPosition 方法找到将图像拆分成页面的位置。
扫描较厚的书本时,靠近装订线的文本可能会产生变形。IFRPage::CorrectGeometricalDistortions 方法可以矫直图像上变形的线条。
照片校正
OCR 质量可能会受到以下因素的影响:靠近页边距的扭曲文本行、文档歪斜、噪声以及数码照片上常见的其他缺陷。照片校正方法可让您矫直文本行、去除运动模糊和降低噪点:
- 若要矫直图像上的变形线条,请使用 IFRPage::CorrectGeometricalDistortions 方法
- 若要去除运动模糊,请使用 IImageDocument::RemoveMotionBlur 方法
- 若要去除照片的噪声,请使用 IImageDocument::RemoveNoise 方法
分辨率纠正
如果由于某种原因,源图像的分辨率与 建议值(对于正常文本为300 dpi ,对于用小字体打印的文本为400-600 dpi )相差巨大,或者字体大小异常,则可以通过 IFRPage::DetectResolution 和 IImageDocument::ChangeResolution 方法来改善识别质量。
用于文档合成的字体
输出文档的外观在很大程度上取决于文档合成过程中使用的字体集。ABBYY FineReader Engine 可从 ISynthesisParamsForDocument::FontSet 属性指定的字体集中选择最佳字体。默认情况下,该集合中的字体数量会进行优化以达到处理速度和输出文档质量之间的平衡。但在有些情况下您可能需要更改默认字体集:
- 您可以为 SystemFontSet 或 CustomFontSet 对象的 FontNamesFilter 属性中的字体指定 FNF_FineReader 筛选器。该筛选器可以为 FineReader Engine 在文档合成过程提供更多字体,与默认模式相比字体更好。不过,处理速度可能会因此减缓。此功能可能会在 转换为可编辑格式等情况下用到。
- 您可以为特定语言使用预定义字体筛选,例如 FNF_Chinese,FNF_Japanese。通过 SystemFontSet 或 CustomFontSet 对象的 FontNamesFilter 属性。
- 您可以在 SystemFontSet 或 CustomFontSet 对象的 FontNamesCustomFilter 属性中指定用在文档中的特定字体系列。
另请参阅
17.09.2024 15:14:41