Как учесть характеристики исходного документа

Качество распознавания во многом зависит от качества исходного изображения. В этой статье вы узнаете о том, на что следует обратить внимание до распознавания документа:

Языки документа

ABBYY FineReader поддерживает распознавание как одноязычных, так и многоязычных, например, англо-французских, документов. Для распознавания многоязычного документа необходимо выбрать несколько языков распознавания.

Чтобы выбрать языки для распознавания, в выпадающем списке Языки документа на главной панели инструментов (или в окне Задача — если вы используете для распознавания встроенные задачи) выберите один из пунктов:

  • Автовыбор

Язык будет выбираться автоматически из задаваемого списка словарных языков. Вы можете изменить состав данного списка. Для этого:

  1. Нажмите ссылку Выбор языков… В результате откроется диалог Редактор языков.
  2. Убедитесь, что опция Автоматически выбирать язык распознавания из списка включена.
  3. Нажмите кнопку Указать….
  4. В диалоге Языки отметьте необходимые языки.
  • Язык или сочетание языков

Выберите один из предложенных вариантов. Список языков включает в себя последние использованные языки распознавания, а также английский, немецкий и французский языки.

  • Выбор языков…

Выберите данный пункт, если вы хотите выбрать другие языки для распознавания.

В открывшемся диалоге Редактор языков отметьте опцию Указать языки распознавания вручную и укажите один или несколько языков. Для этого отметьте пункты с соответствующими названиями языков. Если вы часто используете какую-либо комбинацию языков, то создайте новую группу, содержащую эти языки.

Если нужного языка нет в списке, возможно:

  1. Данный язык не поддерживается системой ABBYY FineReader.

Полный список языков приведен в разделе «Поддерживаемые языки распознавания».

  1. Язык не поддерживается вашей копией программы.

Полный список доступных вам языков приведен в диалоге Лицензии (Справка > О программе… > Информация о лицензиях).

В процессе распознавания можно использовать не только предопределенные языки и группы языков, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их. Подробнее см. «Если часть символов не удалось распознать».

Тип печати

Документ может быть напечатан на различных устройствах, например, на пишущей машинке или факсимильном аппарате. Качество распознавания таких документов может быть различным. Можно добиться более высокого качества распознавания, установив соответствующий Тип печати в диалоге Настройки.

Для большинства текстов тип печати определяется автоматически. Этому соответствует значение Авто, установленное в группе Тип документа в диалоге Настройки (меню Сервис>Настройки…>закладка Документ). При этом вы можете обрабатывать документ в цветном или черно-белом режиме.

При необходимости вы можете выбрать другой тип печати в этой группе.

Фрагмент страницы, напечатанной на пишущей машинке. Ширина букв одинакова (сравните, например, буквы «w» и «t»). Для таких текстов установите значение Пишущая машинка.
Фрагмент страницы, распечатанной на факсимильном аппарате. Штрихи букв местами непропечатаны, есть шумы и искажения букв. Для таких текстов установите значение Факс.

После распознавания текстов, напечатанных на пишущей машинке или факсе, не забудьте снова выбрать значение Авто при возвращении к типографскому тексту.

Качество печати

Для успешного распознавания документа, отпечатанного с плохим качеством, может потребоваться изменить настройки сканирования. Такой документ может содержать много «мусора», нечеткие границы букв, угловатые, неровные буквы с дефектами, перекос строк, смещение и неявные границы черных разделителей таблиц.

Факс Газетная страница

Подобные документы рекомендуется сканировать в оттенках серого. В этом случае вам не нужно будет подбирать яркость сканирования, программа сделает это за вас автоматически.

Сканирование в оттенках серого обеспечивает более высокую степень сохранения информации о буквах сканируемого текста. Это приводит к улучшению качества распознавания документов среднего и низкого качества печати. Вы также можете устранить некоторые дефекты вручную, используя инструменты по обработке изображения в окне редактора изображений. Подробнее см. в статье «Обработка изображений».

Цветовое оформление документа

Если при распознавании документов нет необходимости сохранять цветные иллюстрации и цветовое оформление документа, вы можете обрабатывать документ в черно-белом режиме. Это позволит значительно уменьшить размер документа FineReader и сократить время на распознавание. Однако, в некоторых случаях, для изображений с низкой контрастностью возможно ухудшение качества распознавания. Не рекомендуется обрабатывать в черно-белом режиме фотографии, журнальные страницы и документы, написанные на иероглифических языках.

Совет. Вы также можете сократить время обработки цветных и черно-белых документов, выбрав Быстрое распознавание на закладке Распознать диалога Настройки. Подробнее о режимах распознавания см. в статье «Параметры распознавания».

Вы можете задать цветовой режим документа одним из способов:

  • В выпадающем списке Цветовой режим окна Задача или
  • В группе Цветовой режим на закладке Документ в диалоге Настройки (меню Сервис>Настройки…).

Внимание! После выбора черно-белого режима восстановить цветовое оформление документа не удастся. Чтобы получить цветной документ, откройте файл, содержащий цветные изображения страниц, или заново отсканируйте бумажный документ в цветном режиме.

1/14/2020 5:26:21 PM


Please leave your feedback about this article