Работа с езици с набор от сложни символи

С ABBYY FineReader можете да разпознавате документи на арабски, иврит, идиш, японски, китайски, тайландски и корейски езици. Трябва да се вземат предвид някои допълнителни съображения при работа с документи на китайски, японски или корейски (CJK) и с документи, в които се използва комбинация от CJK и европейски езици.

Препоръчителни шрифтове

Разпознаването на текстове на арабски, иврит, идиш, тайландски, китайски, японски и корейски може да изисква инсталиране на допълнителни шрифтове. Таблицата по-долу изброява препоръчителните шрифтове за текстове на тези езици.

Езици за OCR Препоръчителен шрифт
Арабски Arial™ Unicode™ MS
Иврит Arial™ Unicode™ MS
Идиш Arial™ Unicode™ MS
Тайландски

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Китайски (опростен)

Китайски (традиционен)

Японски, корейски

Корейски (Хангул)

Arial™ Unicode™ MS

Шрифтове SimSun, например:

Example SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(за-ISO10646)

STSong

Разделите по-долу съдържат съвет за подобряване на точността на разпознаване.

Забраняване на автоматичната обработка на изображение

По подразбиране всички страници, които добавите към OCR проект се разпознават автоматично.

Но ако Вашият документ съдържа текст на език от групата CJK в комбинация с европейски език, Ви препоръчваме да забраните автоматичното определяне на ориентацията на страницата и да използвате опцията за разделяне на двойни страници само ако всички изображения на страници имат правилна ориентация (например не са сканирани наобратно).

Можете да разрешите/забраните Коригиране на ориентацията на страниците и Раздели срещуположни страници опциите в раздела  Обработка на изображение в диалоговия прозорец Опции (щракнете върху Инструменти > Опции..., за да отворите този диалогов прозорец).

За да разделите срещуположни страници на арабски, иврит или идиш, първо се уверете, че сте избрали съответния език за разпознаване и след това изберете опцията Раздели срещуположни страници  Можете също да възстановите оригиналната номерация на страниците, като изберете опцията Размяна на страници на книга. Вижте също: OCR проекти.

Ако документът Ви има сложна структура, препоръчваме да забраните автоматичния анализ и разпознаване на изображенията и да изпълните ръчно тези действия.

Можете да изключите автоматичния анализ и разпознаването за новодобавени изображения в раздела Обработка на изображение в диалоговия прозорец Опции (щракнете върху Инструменти > Опции..., за да отворите този диалогов прозорец).

  1. Щракнете върху Инструменти > Опции..., за даотворите разделът Опции.
  2. В Обработка на изображение изчистете опцията  Автоматично обработване на изображения на страниците при добавянето им към редактора на OCR.
  3. Щракнете върху OK.

Разпознаване на документи, написани на повече от един език

Инструкциите по-долу са примерни и обясняват как се разпознава документ, който съдържа текст на английски и китайски език. Документи, които съдържат други езици, могат да бъдат разпознавани по подобен начин.

  1. От главната лента с инструменти изберете Още езици... от списъка с езици. В Редактор Езици изберете Посочете ръчно езиците за OCR и изберете китайски и английски от списъка с езици.
  2. Сканирайте страниците или отворете изображенията.
  3. Ако програмата не може да определи всички области в изображението:
    • Задайте областите ръчно, като използвате инструментите за редактиране на област
    • Задайте всички области, които съдържат само един език и от Свойства на областта изберете съответно английски или китайски.
      Езикът може да бъде зададен само за области от един и същ тип. Ако изберете области от различен тип, например Текст и Таблица, няма да можете да зададете език.
    • Ако е необходимо, изберете посоката на текста от падащия списък Oриентация (за подробности вижте Ако вертикален или негативен текст не е разпознат)
    • За текстове от групата езици CJK програмата предоставя избор на посока на текста в падащия списък Посока на CJK текст (за подробности вижте Редактиране на свойства на област).

Ако неевропейски символи не се извеждат в панела Текст

Ако текст от групата езици CJK се показва неправилно в панелаТекст , може да сте избрали режим Обикновен текст.

За да промените шрифта, използван в режим Обикновен текст:

  1. Щракнете върху Инструменти > Опции..., за даотворите разделът Опции.
  2. Щракнете върху Области и текст.
  3. Изберете Arial Unicode MS от падащия списък Използвани шрифтове за показване на обикновен текст.
  4. Щракнете върху OK.

Ако това не помогне и текстът в прозореца Текст все още се показва неправилно, вижте Използван е неправилен шрифт или някои символи са заменени с "?" или "□".

Смяна на посоката на разпознат текст

ABBYY FineReader определя автоматично посоката на текста, но можете да я зададете и ръчно.

  1. Активирайте панела Текст.
  2. Изберете един или повече параграфа.
  3. Щракнете върху в лентата с инструменти в панела Текст.

Можете да използвате падащия списък Посока на CJK текст в панела Изображение, за да укажете посоката на текста преди разпознаване. Вижте също: Редактиране на свойства на област.

02.11.2018 16:19:10


Please leave your feedback about this article