Особенности работы с языками со сложным письмом

С помощью ABBYY FineReader вы можете распознавать документы на иврите, идише, японском, китайском, тайском, корейском или арабском языке. При работе с документами на иероглифическом языке, а также с документами на одном из иероглифических языков в сочетании с европейским языком, существуют некоторые особенности.

Установка системной поддержки языков

Для распознавания документов на арабском, японском, китайском, тайском, корейском языке, иврите или идише может потребоваться установка системной поддержки для этих языков.

В операционных системах Windows 8, Windows 7, Microsoft Windows Vista поддержка этих языков включена по умолчанию.

Как установить системную поддержку указанных языков на операционной системе Microsoft Windows XP:

  1. Нажмите кнопку Пуск на Панели задач.
  2. Выберите Панель управления>Язык и региональные стандарты.
  3. На закладке Языки отметьте пункт:
    • Установить поддержку языков с письмом справа налево и сложным письмом

для поддержки иврита, идиша, арабского и тайского языков

  • Установить поддержку языков с письмом иероглифами

для поддержки японского, китайского и корейского языков

  1. Нажмите OK.

Рекомендуемые для работы шрифты

Для распознавания документов на арабском, японском, китайском, тайском, корейском языке, иврите или идише может потребоваться установка дополнительных шрифтов Windows. Следующая таблица содержит рекомендуемые для работы шрифты:

Языки распознавания Рекомендуемый шрифт
Арабский Arial™ Unicode™ MS*
Иврит Arial™ Unicode™ MS*
Идиш Arial™ Unicode™ MS*
Тайский

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Китайский упрощенный,

китайский традиционный,

корейский, корейский (хангыль),

японский

Arial™ Unicode™ MS*

шрифты семейства SimSun

Например: SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

* Шрифт, устанавливаемый вместе с операционной системой Microsoft Windows XP и пакетами программ Microsoft Office 2000 или более поздней версии.

Ниже содержатся советы и рекомендации, следуя которым вы получите распознанный документ более высокого качества.

Как отключить автоматическую обработку изображений

По умолчанию распознавание страниц, добавленных в документ FineReader, выполняется в автоматическом режиме.

Однако, если ваш документ содержит текст на иероглифическом языке в сочетании с каким-то из европейских языков, то рекомендуется отключить опцию автоматического определения ориентации страниц, а опцию разбиения сдвоенных страниц использовать только в том случае, если все изображения страниц имеют правильную ориентацию (например, не отсканированы в перевернутом виде).

Опции Определить ориентацию страниц и Делить разворот книги можно включать и отключать в диалоге Настройки на закладке Сканировать/Открыть.

Замечание. Если документ написан на арабском языке, иврите или идише и нужно выполнить разбиение сдвоенных страниц, то для корректного восстановления порядка страниц документа сначала выберите язык распознавания, и только после этого воспользуйтесь опцией Делить разворот книги. Вы также можете восстановить исходную нумерацию документа после разбиения страниц, используя опцию Поменять местами страницы книжного разворота. Подробнее см. «Документ FineReader».

Если документ имеет сложную структуру, то рекомендуется отключить автоматический анализ и распознавание изображения, и выполнить эти операции вручную.

Как отключить автоматический анализ и распознавание изображения:

  1. Откройте диалог Настройки (меню Сервис>Настройки…).
  2. На закладке Сканировать/Открыть снимите выделение с опции Автоматически обрабатывать добавленные страницы.
  3. Нажмите кнопку ОК.

Инструкция по распознаванию документов на нескольких языках

Рассмотрим на примере процесс распознавания документа, который содержит текст на английском и китайском языке.

  1. На главной панели инструментов в списке Языки распознавания выберите пункт Выбор языков…. В открывшемся диалоге Редактор языков отметьте пункт Указать языки распознавания вручную и выберите из списка языков китайский и английский.
  2. Отсканируйте или откройте изображения.
  3. Если некоторые области были выделены неправильно:
    • Выделите области на изображениях вручную, используя инструменты для редактирования формы и положения областей.
    • Если на изображении есть области, в которых нет смешанного текста, выделите их. Затем на панели Свойства области выберите нужный язык (китайский или английский).

Внимание! Указать язык можно только для областей одного типа. Если вы одновременно выбрали области Текст и Таблица, указать язык нельзя.

  1. Нажмите кнопку Распознать.

Если в окне Текст не отображаются иероглифы

Если в окне Текст иероглифы отображаются некорректно, возможно, вы выбрали режим оформления Простой текст.

Как изменить шрифт, который используется для отображения текста в режиме Простой текст:

  1. Откройте диалог Настройки (меню Сервис>Настройки…).
  2. Перейдите на закладку Вид.
  3. В выпадающем списке Шрифт, используемый в режиме Простой текст выберите шрифт Arial Unicode MS.
  4. Нажмите кнопку Ok.

Если в окне Текст не произошло никаких изменений, то для решения этой проблемы обратитесь к статье «Если в распознанном тексте некорректно отображается шрифт».

Как изменить направление письма в распознанном тексте

В процессе распознавания программа ABBYY FineReader автоматически определяет направление письма в тексте. Если необходимо, вы можете скорректировать его вручную.

  1. Перейдите в окно Текст.
  2. Выделите один или несколько абзацев.
  3. На панели инструментов окна Текст нажмите кнопку .

Замечание. Для иероглифического текста предусмотрена специальная опция Направление иероглифического текста, позволяющая выбрать направление письма до распознавания. Подробнее см. «Как отредактировать свойства текста».

1/14/2020 5:26:21 PM


Please leave your feedback about this article