Особенности работы с языками со сложным письмом

С помощью ABBYY FineReader вы можете распознавать документы на иврите, идише, японском, китайском, тайском, корейском или арабском языке. При работе с документами на иероглифическом языке, а также с документами на одном из иероглифических языков в сочетании с европейским языком, существуют некоторые особенности.

Рекомендуемые для работы шрифты

Для распознавания документов на арабском, японском, китайском, тайском, корейском языке, иврите или идише может потребоваться установка дополнительных шрифтов Windows. Следующая таблица содержит рекомендуемые для работы шрифты:

Языки распознавания Рекомендуемый шрифт
Арабский Arial™ Unicode™ MS
Иврит Arial™ Unicode™ MS
Идиш Arial™ Unicode™ MS
Тайский

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Китайский упрощенный,

китайский традиционный,

корейский, корейский (хангыль),

японский

Arial™ Unicode™ MS

шрифты семейства SimSun

Например: SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

Ниже содержатся советы и рекомендации, следуя которым вы получите распознанный документ более высокого качества.

Как отключить автоматическую обработку изображений

По умолчанию распознавание страниц, добавленных в OCR-проект, выполняется в автоматическом режиме.

Однако, если ваш документ содержит текст на иероглифическом языке в сочетании с каким-то из европейских языков, то рекомендуется отключить опцию автоматического определения ориентации страниц, а опцию разбиения сдвоенных страниц использовать только в том случае, если все изображения страниц имеют правильную ориентацию (например, не отсканированы в перевернутом виде).

Опции Исправлять ориентацию страницы и Делить разворот книги можно включать и отключать на закладке Обработка изображений диалога Настройки (меню Инструменты > Настройки...).

Если документ написан на арабском языке, иврите или идише и нужно выполнить разбиение сдвоенных страниц, то для корректного восстановления порядка страниц документа сначала выберите язык распознавания, и только после этого воспользуйтесь опцией Делить разворот книги. Вы также можете восстановить исходную нумерацию документа после разбиения страниц, используя опцию Поменять местами страницы книжного разворота. Подробнее см. «OCR-проект».

Если документ имеет сложную структуру, то рекомендуется отключить автоматический анализ и распознавание изображения, и выполнить эти операции вручную.

Как отключить автоматический анализ и распознавание изображения: на закладке Обработка изображений диалога Настройки (меню Инструменты > Настройки...)

  1. Откройте диалог Настройки (меню Инструменты > Настройки...).
  2. На закладке Обработка изображений снимите выделение с опции Автоматически обрабатывать изображения страниц после добавления в OCR-редактор.
  3. Нажмите кнопку ОК.

Инструкция по распознаванию документов на нескольких языках

Рассмотрим на примере процесс распознавания документа, который содержит текст на английском и китайском языке.

  1. На главной панели инструментов в списке Языки распознавания выберите пункт Полный список языков.... В открывшемся диалоге Редактор языков отметьте пункт Укажите OCR-языки вручную и выберите из списка языков китайский и английский.
  2. Отсканируйте или откройте изображения.
  3. Если некоторые области были выделены неправильно:
    • Выделите области на изображениях вручную, используя инструменты для редактирования формы и положения областей.
    • Если на изображении есть области, в которых нет смешанного текста, выделите их. Затем на панели Свойства области выберите нужный язык (китайский или английский).
    • Указать язык можно только для областей одного типа. Если вы одновременно выбрали области Текст и Таблица, указать язык нельзя.
    • Если необходимо, выберите ориентацию букв текста в выпадающем списке Ориентация (см. «Нераспознанный вертикальный или инвертированный текст»).
    • Для иероглифического текста предусмотрен выбор направления текста в выпадающем списке Направление иероглифического текста (см. «Редактирование свойств области»).
  4. Нажмите кнопку Распознать.

Если в окне Текст не отображаются иероглифы

Если в окне Текст иероглифы отображаются некорректно, возможно, вы выбрали режим оформления Простой текст.

Как изменить шрифт, который используется для отображения текста в режиме Простой текст:

  1. Откройте диалог Настройки (меню Инструменты > Настройки...).
  2. Перейдите на закладку Области и текст.
  3. В выпадающем списке Шрифт для отображения простого текста выберите шрифт Arial Unicode MS.
  4. Нажмите кнопку OK.

Если в окне Текст не произошло никаких изменений, то для решения этой проблемы обратитесь к статье «Некорректное отображение шрифта в тексте».

Как изменить направление письма в распознанном тексте

В процессе распознавания программа ABBYY FineReader автоматически определяет направление письма в тексте. Если необходимо, вы можете скорректировать его вручную.

  1. Перейдите в окно Текст.
  2. Выделите один или несколько абзацев.
  3. На панели инструментов окна Текст нажмите кнопку .

Для иероглифического текста предусмотрена специальная опция Направление иероглифического текста, позволяющая выбрать направление письма до распознавания. Подробнее см. «Редактирование свойств области».

02.11.2018 16:19:56


Please leave your feedback about this article