Особливості роботи з мовами зі складним письмом

За допомогою ABBYY FineReader ви можете розпізнавати документи мовою іврит, їдиш, японською, китайською, тайською, корейською чи арабською мовами. Під час роботи з документами ієрогліфічною мовою, а також із документами однією з ієрогліфічних мов у поєднанні з європейською мовою є деякі особливості.

Рекомендовані для роботи шрифти

Для розпізнавання документів арабською, японською, китайською, тайською, корейською мовою, мовою іврит або їдиш може знадобитися інсталяція додаткових шрифтів Windows. Подана нижче таблиця містить рекомендовані для роботи шрифти:

Мови розпізнавання Рекомендований шрифт
Арабська Arial™ Unicode™ MS
Іврит Arial™ Unicode™ MS
Їдиш Arial™ Unicode™ MS
Тайська

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Китайська спрощена,

китайська традиційна,

корейська, корейська (хангиль),

японська

Arial™ Unicode™ MS

шрифти родини SimSun

Наприклад: SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

Нижче містяться поради та рекомендації, дотримуючись яких, ви отримаєте розпізнаний документ вищої якості.

Як відключити автоматичну обробку зображень

За замовчуванням розпізнавання сторінок, доданих у OCR-проект, виконується в автоматичному режимі.

Однак якщо ваш документ містить текст ієрогліфічною мовою в поєднанні з якоюсь європейською мовою, то рекомендується відключити опцію автоматичного визначення орієнтації сторінок, а опцію розбивання здвоєних сторінок використовувати, тільки якщо всі зображення сторінок мають правильну орієнтацію (наприклад, не відскановані в переверненому вигляді).

Опції Виправити орієнтацію сторінки і Ділити розворот книги можна вмикати та вимикати на закладці Обробка зображень діалогу Налаштування (меню Інструменти > Налаштування...).

Якщо документ написано арабською мовою, івритом або мовою їдиш і потрібно виконати розбивання здвоєних сторінок, то для коректного відновлення порядку сторінок документа спочатку виберіть мову розпізнавання й тільки після цього скористайтеся опцією Ділити розворот книги. Ви також можете відновити початкову нумерацію документа після розбивання сторінок, використовуючи опцію Поміняти місцями сторінки розвороту книги. Див. також «OCR-проект».

Якщо документ має складну структуру, то рекомендується відключити автоматичний аналіз і розпізнавання зображення та виконати ці операції вручну.

Як відключити автоматичний аналіз і розпізнавання зображення: на закладці Обробка зображень діалогу Налаштування (меню Інструменти > Налаштування...)

  1. Відкрийте діалог Налаштування (меню Інструменти > Налаштування...).
  2. На закладці Обробка зображень зніміть виділення з опції Автоматично обробляти зображення сторінок після додавання до OCR-редактора.
  3. Натисніть кнопку ОК.

Інструкції з розпізнавання документів кількома мовами

Розглянемо на прикладі процес розпізнавання документа, який містить текст англійською та китайською мовами.

  1. На головній панелі інструментів у списку Мови розпізнавання виберіть пункт Повний список мов.... У діалозі, що відкрився, Редактор мов позначте пункт Вкажіть OCR-мови вручну і виберіть зі списку мов китайську й англійську.
  2. Відскануйте або відкрийте зображення.
  3. Якщо деякі зони було виділено неправильно:
    • Виділіть зони на зображеннях вручну, використовуючи інструменти для редагування форми та положення зон.
    • Якщо на зображенні є зони, у яких немає змішаного тексту, виділіть їх. Потім на панелі Параметри зони виберіть потрібну мову (китайську або англійську).
      Вказати мову можна тільки для зон одного типу. Якщо ви одночасно вибрали зони Текст і Таблиця, вказати мову не можна.
    • Якщо необхідно, виберіть орієнтацію літер тексту у випадному списку Орієнтація (див. «Нерозпізнаний вертикальний або інвертований текст»).
    • Для ієрогліфічного тексту передбачено вибір напрямку тексту у випадному списку Напрямок ієрогліфічного тексту (див. «Редагування властивостей зони»).
  4. Натисніть кнопку Розпізнати.

Якщо у вікні Текст не відображаються ієрогліфи

Якщо у вікні Текст ієрогліфи відображаються некоректно, можливо, ви вибрали режим оформлення Простий текст.

Як змінити шрифт, який використовується для відображення тексту в режимі Простий текст:

  1. Відкрийте діалог Налаштування (меню Інструменти > Налаштування...).
  2. Перейдіть на закладку Зони та текст.
  3. У випадному списку Шрифт для відображення простого тексту виберіть шрифт Arial Unicode MS.
  4. Натисніть кнопку OK.

Якщо у вікні Текст не відбулося жодних змін, то для вирішення цієї проблеми зверніться до статті «Некоректне відображення шрифту в тексті».

Як змінити напрямок письма в розпізнаному тексті

У процесі розпізнавання програма ABBYY FineReader автоматично визначає напрямок письма в тексті. Якщо необхідно, ви можете скоргувати його вручну.

  1. Перейдіть у вікно Текст.
  2. Виділіть один або кілька абзаців.
  3. На панелі інструментів вікна Текст натисніть кнопку .

Для ієрогліфічного тексту передбачено спеціальну опцію Напрямок ієрогліфічного тексту, що дозволяє вибрати напрямок письма до розпізнавання. Див. також «Редагування властивостей зони».

02.11.2018 16:20:06

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.