Декоративные (нестандартные) шрифты в исходном документе

Если в вашем документе используются декоративные шрифты или встречаются специальные символы (например, отдельные математические символы), для улучшения качества распознавания рекомендуется использовать режим Обучение распознаванию новых символов и лигатур.

В других случаях распознавание с обучением использовать не рекомендуется, т.к. затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.

В результате обучения создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста.

Использование пользовательского эталона

Как распознать документ, используя пользовательский эталон:

  1. Откройте диалог Настройки (меню Инструменты > Настройки...) на закладке Распознавание.
  2. В группе Распознавание с обучением установите переключатель в положение Использовать пользовательские эталоны.
    Если на данной закладке отметить опцию Использовать также встроенные эталоны распознавания, то в процессе распознавания программа будет использовать как пользовательские, так и встроенные эталоны.
  3. Нажмите кнопку Редактор эталонов...
  4. В открывшемся диалоге Редактор эталонов выберите эталон для работы и закройте диалог.
  5. В главном окне OCR-редактора программы ABBYY FineReader нажмите кнопку .

Создание и обучение эталона

Чтобы обучить эталон символам или лигатурам:

  1. Откройте диалог диалог Настройки (меню Инструменты > Настройки...) на закладке Распознавание.
  2. В группе Распознавание с обучением установите переключатель в положение Обучать распознаванию новых символов и лигатур.
    Если на данной закладке отметить опцию Использовать также встроенные эталоны распознавания, то в процессе распознавания программа будет использовать как пользовательские, так и встроенные эталоны.
  3. Нажмите кнопку Редактор эталонов...
    Для азиатских языков обучение пользовательских эталонов не поддерживается.
  4. В открывшемся диалоге Редактор эталонов нажмите кнопку Новый...
  5. В открывшемся диалоге Создать эталон введите имя эталона и нажмите ОК.
  6. Нажмите кнопку ОК в диалоге Редактор эталонов, затем кнопку ОК в диалоге Настройки.
  7. В окне Изображение нажмите кнопку .
    Если в процессе распознавания встретится неизвестный символ, откроется диалог Ручное обучение эталона с изображением этого символа.
  8. Обучите эталон символам или лигатурам.
    Лигатуры — это сочетания двух или трех символов, которые из-за особенностей их начертания невозможно разделить при обучении и которые поэтому сразу обучаются как комбинации символов. Обучение лигатурам происходит так же, как и обучение отдельным символам.

    Если вам важно в распознаваемом тексте сохранить начертание шрифта, верхний или нижний индексы, отметьте соответствующие опции в группе Эффекты.
    В процессе обучения вы можете вернуться к редактированию предыдущего символа. Для этого нажмите кнопку Вернуться. В этом случае охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара «изображение — символ» будет удалена из эталона. Кнопка Вернуться действует в пределах одного слова.

Внимание:

  • Обучение возможно только для символов, входящих в алфавит языка. Если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинации из двух символов, или вы можете скопировать требуемый символ из Вставка символа (открывается при нажатии кнопки ).
  • В одном эталоне может содержаться до 1000 новых символов. Однако не следует создавать слишком много лигатур, т.к. это может отрицательно сказаться на качестве распознавания.

Выбор эталона для работы

Программа ABBYY FineReader позволяет использовать эталоны для более качественного распознавания документов.

  1. В меню Инструменты выберите пункт Редактор эталонов...
  2. В открывшемся диалоге Редактор эталонов из списка существующих эталонов выберите нужный и нажмите кнопку Выбрать.

При работе с эталонами существуют следующие особенности:

  1. Изображения некоторых символов не различаются системой распознавания и сопоставляются с каким-то одним символом. Например, прямой ('), левый (‘) и правый (’) апострофы хранятся в эталоне как изображение прямого апострофа. Таким образом, в результате распознавания в тексте никогда не появится правый или левый апостроф, хотя при обучении были указаны именно эти символы.
  2. Для некоторых изображений решение о том, какому символу в распознанном тексте сопоставить встретившееся конкретное изображение, принимается на основе общего анализа распознанного текста. Так, например, решение о том, является ли символ, обозначаемый «кружком», буквой «о» или цифрой ноль, система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.
  3. Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, что и документ, на котором данный эталон создавался.
  4. Вы можете сохранить созданный эталон для работы с другими OCR-проектами. Для этого сохраните файл эталонов и языков. Подробнее см. "OCR-проект".
  5. При переходе к распознаванию текстов, напечатанных другим шрифтом, не забудьте отключить эталон. Для этого на закладке Распознавание диалога Настройки (меню Инструменты > Настройки...) установите переключатель в положение Использовать только встроенные эталоны.

Редактирование эталона

Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется, отредактировать его. Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из-за неправильно обученного эталона. Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными буквенными соответствиями следует удалить из эталона.

  1. В меню Инструменты выберите пункт Редактор эталонов...
  2. В открывшемся диалоге Редактор эталонов выберите нужный эталон и нажмите кнопку Редактировать...
  3. В открывшемся диалоге Пользовательский эталон выберите символ и нажмите кнопку Свойства...

В открывшемся диалоге:

  • В поле Символ введите букву, которая соответствует символу;
  • В поле Эффекты укажите правильное начертание: курсив, полужирный, верхний или нижний индексы.

Чтобы удалить неправильно обученные символы, нажмите кнопку Удалить в диалоге Пользовательский эталон.

9/19/2019 6:18:50 PM


Please leave your feedback about this article