处理字体
文档识别结果取决于处理过程中使用的字体及其设置。ABBYY FineReader Engine 提供可用字体使用选项,但是 在某些情况下 需要手动设置字体:
- 您使用的操作系统字体有限或者没有字体(例如,没有图形用户界面的任意Linux服务器发行版本)
- 您的文档包含特定的字体(例如,非拉丁字体)
在这些情况下, 在启动 应用程序前设置字体非常重要,因为有些处理阶段需要使用正确调整过的字体:
- PDF 打开
- 文档合成
- 导出为 PDF格式
本文包含有关手动设置字体的有用信息,介绍了ABBYY FineReader Engine 的字体处理功能。
PDF 打开
PDF包含有关创建它所使用的字体的信息。该信息对于 PDF 光栅化必不可少,例如,处理来自图片的可见文本并确定使用的字体及其参数。为了在输出 PDF中呈现正确字体,方法如下:
- 手动将所需字体复制到分发包的 Data/Resources/Font 文件夹中。该方法不会在操作系统中注册字体,只影响PDF打开。默认情况下,在文档合成和导出过程中不会使用该文件夹的字体。
- 手动将所需字体复制到 /usr/share/fonts 系统文件夹。该方法会将字体注册在操作系统中。如果在 ISynthesisParamsForDocument::FontSet 属性中进行了指定了此文件夹中的字体,该文件夹的字体将被用于文档合成或导出(请参见文档合成和导出为PDF格式 部分)。默认情况下,这些字体只有在被嵌入输入 PDF 的情况下才会在合成过程中使用(请参见 FontNamesFiltersEnum 枚举中 FNF_Auto 筛选器的描述)。
- 安装字体安装包(请使用 Debian系统中的 ttf-mscorefonts-installer 数据包和 RHEL 类系统中的 msttcore-fonts-installer 数据包)。该方法可自动执行字体安装,并使用与前一种方法相同的特性来设置合成和导出字体。
注:无论是手动将字体复制到系统文件夹,还是安装操作系统中的数据包,都需要在完成后通过 fc-cache -f 命令更新字体缓存。
所需字体包括:
- Arial
- Times New Roman
- Courier New
注:要检测文本中单个字体的不同样式,我们建议同时添加多种基本字体样式(regular, bold 和 italic)。
文档合成和导出为 PDF格式
当合成文档或将其导出为 PDF 格式时,ABBYY FineReader Engine 会从ISynthesisParamsForDocument::FontSet 属性中指定的字体集中选择最佳字体。默认情况下,该集合中的字体数量会进行优化以达到处理速度和输出文档质量之间的平衡。
手动设置字体:
1. 选择电脑上要进行字体存储的任何文件夹。
2. 将所需字体文件复制到该文件夹中。文档合成和导出的推荐字体在 FontNamesFiltersEnum 枚举中列出。
3. 通过 CustomFontSet 对象的 Folder 属性指定含有字体的文件夹。
如果需要更改默认字体集,请参考以下建议方法:
- 您不仅可以使用 PDF 打开 部分的字体来打开 PDF,还可以在合成和导出任何输入文档时使用它们。为此,请在CustomFontSet 对象的 Folder 属性中指定之前在 PDF 打开部分中选择的字体文件夹路径。
- 对于特定语言,可以使用预定义字体筛选,例如 FNF_Chinese,FNF_Japanese。通过 SystemFontSet 或 CustomFontSet 对象的 FontNamesFilter 属性。
- 您可以在 SystemFontSet 或 CustomFontSet 对象的 FontNamesCustomFilter 属性中指定文档的特定字体系列。
- 您可以通过 SystemFontSet 或 CustomFontSet 对象的 FontNamesFilter 属性中的字体指定 FNF_FineReader 筛选器。该筛选器可以为 FineReader Engine 在文档合成过程提供更多字体,与默认模式相比字体更好。不过,处理速度可能会因此减缓。此功能可能会在转换为可编辑格式等情况下用到。在指定该筛选器前,请检查它使用的字体列表,并确保工作站上存在这些字体。
另请参阅:
7/3/2024 8:50:25 AM