Как учесть характеристики исходного документа

Качество распознавания во многом зависит от качества исходного изображения. В этой статье вы узнаете о том, на что следует обратить внимание до распознавания документа:

Языки распознавания

ABBYY FineReader поддерживает распознавание как одноязычных, так и многоязычных, например, англо-французских, документов. Для распознавания многоязычного документа необходимо выбрать несколько языков распознавания.

Чтобы выбрать языки для распознавания, откройте диалог Настройки > закладку Языки и отметьте один из пунктов:

  • Автоматически выбирать OCR-язык из списка
    Язык будет выбираться автоматически из задаваемого списка словарных языков. Вы можете изменить состав данного списка. Для этого:
    1. Убедитесь, что опция Автоматически выбирать OCR-язык из списка включена.
    2. Нажмите кнопку Выбрать...
    3. В диалоге Языки отметьте необходимые языки и нажмите ОК.
    4. Нажмите OK в диалоге Настройки.
  • Укажите OCR-языки вручную
    Выберите данный пункт, если вы хотите выбрать другие языки для распознавания.

В диалоге ниже укажите один или несколько языков. Для этого отметьте пункты с соответствующими названиями языков. Если вы часто используете какую-либо комбинацию языков, то создайте новую группу, содержащую эти языки.

Если нужного языка нет в списке, возможно:

  1. Данный язык не поддерживается системой ABBYY FineReader.
    Полный список языков приведен в разделе «Поддерживаемые языки распознавания».
  2. Язык не поддерживается вашей копией программы.

Полный список доступных вам языков приведен в диалоге Лицензии (Справка > О программе > Информация о лицензиях).

В процессе распознавания можно использовать не только предопределенные языки и группы языков, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их. Подробнее см. «Нераспознанные символы».

Тип документа

Документ может быть напечатан на различных устройствах, например, на пишущей машинке или факсимильном аппарате. Качество распознавания таких документов может быть различным. Можно добиться более высокого качества распознавания, установив соответствующий тип документа в диалоге Настройки.

Для большинства текстов тип документа определяется автоматически. Этому соответствует значение Авто, установленное в группе Тип документа в диалоге Настройки (меню Инструменты > Настройки...>закладка Распознавание). При этом вы можете обрабатывать документ в цветном или черно-белом режиме.

При необходимости вы можете выбрать другой тип печати в этой группе.

Фрагмент страницы, напечатанной на пишущей машинке. Ширина букв одинакова (сравните, например, буквы «w» и «t»). Для таких текстов установите значение Пишущая машинка.
Фрагмент страницы, распечатанной на факсимильном аппарате. Штрихи букв местами непропечатаны, есть шумы и искажения букв. Для таких текстов установите значение Факс.

После распознавания текстов, напечатанных на пишущей машинке или факсе, не забудьте снова выбрать значение Авто при возвращении к типографскому тексту.

Качество печати

Для успешного распознавания документа, отпечатанного с плохим качеством, может потребоваться изменить настройки сканирования. Такой документ может содержать много «мусора», нечеткие границы букв, угловатые, неровные буквы с дефектами, перекос строк, смещение и неявные границы черных разделителей таблиц.

Факс Газетная страница

Подобные документы рекомендуется сканировать в оттенках серого. В этом случае вам не нужно будет подбирать яркость сканирования, программа сделает это за вас автоматически.

Сканирование в оттенках серого обеспечивает более высокую степень сохранения информации о буквах сканируемого текста. Это приводит к улучшению качества распознавания документов среднего и низкого качества печати. Вы также можете устранить некоторые дефекты вручную, используя инструменты по обработке изображения в окне OCR-редактора в редакторе изображений. Подробнее см. «Обработка изображений».

Цветовое оформление документа

Если при распознавании документов нет необходимости сохранять цветные иллюстрации и цветовое оформление документа, вы можете обрабатывать документ в черно-белом режиме. Это позволит значительно уменьшить размер документа и сократить время на распознавание. Однако, в некоторых случаях, для изображений с низкой контрастностью возможно ухудшение качества распознавания. Не рекомендуется обрабатывать в черно-белом режиме фотографии, журнальные страницы и документы, написанные на иероглифических языках.

Совет. Вы также можете сократить время обработки цветных и черно-белых документов, выбрав Быстрое распознавание на закладке Распознавание диалога Настройки. Подробнее о режимах распознавания см. в статье «Параметры распознавания».

Как задать цветовой режим при сканировании документа см. в статье "Рекомендации по сканированию".

После выбора черно-белого режима восстановить цветовое оформление документа не удастся. Чтобы получить цветной документ, откройте файл, содержащий цветные изображения страниц, или заново отсканируйте бумажный документ в цветном режиме.

02.11.2018 16:19:56


Please leave your feedback about this article