Параметры распознавания

Правильно установленные параметры распознавания помогут вам быстро получить качественный документ, пригодный для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, как вы намерены использовать распознанный документ в дальнейшем. Вы можете указать следующие параметры:

Выбрать необходимые параметры вы можете на закладке Распознавание диалога Настройки (меню Инструменты > Настройки...).

Распознавание страниц, добавленных в документ, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных страниц на закладке Обработка изображений диалога Настройки (меню Инструменты > Настройки...).

Если вы изменили язык распознавания, выделили области на изображении вручную или изменили другие настройки программы, выполните распознавание заново.

Режимы распознавания PDF

Результаты распознавания PDF-документов зависят от правильно выбранного режима.

Данные настройки предназначены для обработки обычного PDF-документа, содержащего текстовый слой и иллюстрации. PDF-документы такого типа получаются при конвертировании редактируемых файлов в PDF-формат. Другие типы PDF-документов, такие как PDF-документ с возможностью поиска и PDF (только изображение), всегда обрабатываются в режиме Использовать OCR, установленном по умолчанию для документов данных типов. Их обработка не требует дополнительных настроек.

В программе предусмотрены три режима распознавания PDF-документов:

  • Автоматически определять: использовать OCR или текст из PDF
    При использовании данного режима программа определяет качество текстового слоя. При хорошем качестве текстового слоя используется этот текстовый слой, в противном случае создается текстовый слой в результате распознавания.
  • Использовать OCR
    При использовании данного режима текстовый слой создается в результате распознавания.
    По сравнению с другими режимами требует больше времени, но обеспечивает лучшее качество распознавания на документах с некачественным текстовым слоем.
  • Использовать только текст из PDF
    Данный режим используется для обработки документов, содержащих текстовый слой. При использовании этого режима текст извлекается из PDF-документа без распознавания.

Скорость и качество распознавания

В ABBYY FineReader 14 предусмотрено:

  • Тщательное распознавание
    Данный вид распознавания пригоден для распознавания как простых, так и сложных документов. Например, для документов, содержащих текст на цветном фоне, или для документов, содержащих таблицы, в том числе таблицы без линий сетки и таблицы с цветными ячейками.
    По сравнению с Быстрым, Тщательное распознавание требует больше времени, но обеспечивает лучшее качество.
  • Быстрое распознавание
    Данный вид распознавания рекомендуется для обработки больших объемов документов с простым оформлением и хорошим качеством печати.

Тип документа

Позволяет указать, на каком устройстве напечатан документ. Подробнее см. "Как учесть характеристики исходного документа".

Определение элементов оформления

Укажите элементы оформления документа, которые будет определять программа: колонтитулы, оглавление, нумерованные списки, сноски. Выбранные элементы оформления будут сохранены в виде интерактивных элементов, а не основного текста.

Штрих-коды

Если ваш документ содержит штрих-код, и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, выберите опцию Конвертировать штрих-коды в строки. По умолчанию эта опция отключена.

Эталоны и языки

Обучение распознаванию новых символов и лигатур используется для распознавания следующих текстов:

  • Для набора которых использованы декоративные шрифты
  • В которых встречаются специальные символы (например, отдельные математические символы)
  • Большого объема (более 100 страниц) текста плохого качества

По умолчанию опция обучения отключена. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию Обучать распознаванию новых символов и лигатур.

При распознавании вы можете использовать встроенные эталоны или создать собственный эталон. Для этого выберите нужную опцию в данной группе.

Вы можете сохранить настройки эталонов и пользовательских языков или загрузить ранее сохраненные. Подробнее см. «OCR-проект».

Шрифты

Выберите шрифты, которые будут использоваться при сохранении распознанного текста.

Чтобы выбрать шрифты:

  1. Нажмите кнопку Шрифты...
  2. Отметьте нужные шрифты и нажмите ОК.

11/2/2018 4:19:56 PM


Please leave your feedback about this article