Декоративні (нестандартні) шрифти у вихідному документі

Якщо у вашому документі використовуються декоративні шрифти або трапляються спеціальні символи (наприклад, окремі математичні символи), для поліпшення якості розпізнавання рекомендується використовувати режим Навчання розпізнаванню нових символів і лігатур.

В інших випадках розпізнавання з навчанням використовувати не рекомендується, оскільки витрати на навчання будуть перевищувати отриманий виграш якості розпізнавання.

У результаті навчання створюється еталон літер, що трапляються в тексті. Цей еталон у подальшому використовується під час розпізнавання основного обсягу тексту.

Використання еталона користувача

Як розпізнати документ, використовуючи еталон користувача:

  1. Відкрийте діалог Налаштування (меню Інструменти > Налаштування...) на закладці Розпізнавання.
  2. У групі Розпізнавання з навчанням встановіть перемикач у положення Використовувати еталони користувача.
    Якщо на цій закладці відзначити опцію Використовувати також вбудовані еталони розпізнавання, то в процесі розпізнавання програма буде використовувати як еталони користувача, так і вбудовані еталони.
  3. Натисніть кнопку Редактор еталонів...
  4. У діалозі, що відкрився, Редактор еталонів виберіть еталон для роботи та закрийте діалог.
  5. У головному вікні ABBYY FineReader натисніть кнопку .

Створення та навчання еталона

Щоб навчити еталон символів або лігатур:

  1. Відкрийте діалог Налаштування (меню Інструменти > Налаштування...) на закладці Розпізнавання.
  2. У групі Розпізнавання з навчанням встановіть перемикач у положення Навчати розпізнаванню нових символів та лігатур.
    Якщо на цій закладці відзначити опцію Використовувати також вбудовані еталони розпізнавання, то в процесі розпізнавання програма буде використовувати як еталони користувача, так і вбудовані еталони.
  3. Натисніть кнопку Редактор еталонів....
    Для азіатських мов навчання еталонів користувача не підтримується.
  4. У діалозі, що відкрився, Редактор еталонів натисніть кнопку Нова....
  5. У діалозі, що відкрився, Створити еталон введіть ім’я еталона та натисніть ОК.
  6. Натисніть кнопку ОК у діалозі Редактор еталонів, потім кнопку ОК у діалозі Налаштування.
  7. У вікні Зображення натисніть кнопку .
    Якщо у процесі розпізнавання трапиться невідомий символ, відкриється діалог Додавання шаблону із зображенням цього символу.
  8. Навчіть еталон символів або лігатур.
    Лігатури — це поєднання двох чи трьох символів, які через особливості їхнього накреслення неможливо розділити під час навчання та які одразу навчаються як комбінація символів. Навчання лігатур відбувається так само, як і додавання окремих символів.
    Якщо вам важливо в розпізнаваному тексті зберегти зображення шрифту, верхній або нижній індекси, виберіть відповідні опції в групі Ефекти.
    У процесі навчання ви можете повернутися до редагування попереднього символу. Для цього натисніть кнопку Назад. У цьому разі охоплювальний прямокутник повернеться на попередню позицію, а останню створену пару «зображення — символ» буде вилучено з еталона. Кнопка Назад діє в межах одного слова.

Увага:

  • Навчання можливе тільки для символів, що входять до алфавіту мови. Якщо ви навчаєте програму символів, які не можна ввести з клавіатури, то для їхнього позначення можна використовувати комбінації з двох символів, або ви можете скопіювати необхідний символ із Вставити символ (відкривається після натискання кнопки ).
  • В одному еталоні може міститися до 1000 нових символів. Однак не слід створювати занадто багато лігатур, тому що це може негативно позначитися на якості розпізнавання.

Вибір еталона для роботи

Програма ABBYY FineReader дозволяє використовувати еталони для якіснішого розпізнавання документів.

  1. У меню Інструменти виберіть пункт Редактор еталонів....
  2. У діалозі, що відкрився, Редактор еталонів зі списку наявних еталонів виберіть потрібний і натисніть кнопку Вибрати.

Під час роботи з еталонами є такі особливості:

  1. Зображення деяких символів не розрізняються системою розпізнавання та зіставляються з якимось одним символом. Наприклад, прямий ('), лівий (‘) і правий (’) апострофи зберігаються в еталоні як зображення прямого апострофа. Таким чином, після розпізнавання в тексті ніколи не з’явиться правий чи лівий апостроф, хоча під час навчання були вказані саме ці символи.
  2. Для деяких зображень рішення про те, із яким символом у розпізнаному тексті його зіставити, приймається на основі загального аналізу розпізнаного тексту. Так, наприклад, рішення про те, чи є символ, що позначається «кружечком», літерою «о» чи цифрою нуль, система приймає залежно від того, чи є поряд інші цифри або літери.
  3. Створений еталон можна використовувати тільки для розпізнавання текстів, які використовують ті самі шрифт і розмір шрифту і які відскановано з тією ж роздільною здатністю, що й документ, на якому цей еталон створювався.
  4. Ви можете зберегти створений еталон для роботи з іншими OCR-проектами. Для цього збережіть файл еталонів і мов. Див. також «OCR-проект».
  5. Під час переходу до розпізнавання текстів, надрукованих іншим шрифтом, не забудьте відключити еталон. Для цього на закладці Розпізнавання діалогу Налаштування (меню Інструменти > Налаштування...) встановіть перемикач у положення Використовувати тільки вбудовані еталони.

Редагування еталона

Перш ніж запускати розпізнавання зі щойно створеним еталоном, рекомендується переглянути еталон і, якщо буде потрібно, відредагувати його. Цим ви зведете до мінімуму помилки розпізнавання, які можуть виникнути через неправильно навчений еталон. Еталон має містити тільки цілі символи або лігатури. Символи, обрізані з країв, і символи з неправильними літерними відповідниками слід видалити з еталона.

  1. У меню Інструменти виберіть пункт Редактор еталонів....
  2. У діалозі, що відкрився, Редактор еталонів виберіть потрібний еталон і натисніть кнопку Редагувати...
  3. У діалозі, що відкрився, Шаблон користувача виберіть символ і натисніть кнопку Параметри

У діалозі, що відкрився:

  • У полі Символ введіть літеру, яка відповідає символу;
  • У полі Ефекти вкажіть правильне накреслення: курсив, напівжирний, верхній або нижній індекси.

Щоб видалити неправильно навчені символи, натисніть кнопку Видалити у діалозі Шаблон користувача.

02.11.2018 16:20:06


Please leave your feedback about this article