Нераспознанные символы

В процессе работы программа опирается на знание о языке, указанном в качестве языка распознавания. Если в документе много неестественных конструкций, например, артикулов, может оказаться, что язык распознавания не содержит часть символов, используемых в тексте. В этом случае возникают ошибки. Перед распознаванием подобного документа необходимо создать новый язык, который будет содержать все используемые в тексте символы. Вы так же можете объединить существующие языки в новую группу и при распознавании подключить именно их.

Как создать новый язык

  1. Откройте закладку Языки в диалоге Настройки (меню Инструменты > Настройки...).
  2. Нажмите кнопку Новый...
  3. В открывшемся диалоге установите переключатель в положение Создать новый язык на основе существующего, выберите язык, на основе которого вы создаете новый, и нажмите кнопку ОК.
  4. Откроется диалог Свойства языка. В данном диалоге определите все необходимые параметры:
    1. Имя нового языка.
    2. В поле Базовый язык указан язык, на основе которого вы создаете новый язык. В данном поле отображается язык, который вы выбрали в диалоге Новый язык или группа языков. В выпадающем списке вы можете выбрать другой язык.
    3. В поле Алфавит языка указан алфавит языка, на основе которого вы создаете новый язык. Нажмите кнопку , чтобы отредактировать алфавит.
    4. Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:
      • Нет
        Не подключать словарь к языку.
      • Встроенный словарь
        Используется словарь, поставляемый с программой.
      • Пользовательский словарь
        Чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в ANSI-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), нажмите кнопку Свойства...
        При проверке орфографии словарные слова пользовательского языка не выделяются, если в тексте они встретились в том виде, в котором они заданы в словаре, или в стандартном виде: всеми маленькими, всеми большими буквами, с большой буквы.
Вид слова в словаре Допустимые варианты написания слова в тексте
abc abc, Abc, ABC
Abc abc, Abc, ABC
ABC abc, Abc, ABC
aBc aBc, abc, Abc, ABC
  • Регулярное выражение
    Вы можете создать словарь пользовательского языка, используя регулярные выражения.
    Подробнее см. «Регулярные выражения».
  1. Вы можете указать дополнительные свойства языка. Для этого нажмите кнопку Дополнительно...
    В диалоге Дополнительные свойства языка вы можете указать:
    • Символы, которые могут встречаться в начале или в конце слова
    • Небуквенные символы, которые пишутся отдельно от слов
    • Указать игнорируемые символы, которые могут встречаться внутри слова
    • Символы, которые заведомо не могут встречаться в текстах, распознаваемых с подключением данного языка (запрещенные символы)
    • Опцию Текст может содержать арабские и римские цифры и аббревиатуры.
  2. После того, как язык создан, выберите его для распознавания.
    Подробнее о выборе языка см. в статье «Языки распознавания».

По умолчанию пользовательский язык будет сохранен в папку OCR-проекта. Вы также можете сохранить все пользовательские языки и эталоны в один файл в группе Пользовательские эталоны и языки на закладке Распознавание диалога Настройки (меню Инструменты > Настройки...).

Как создать новую группу языков

Если при распознавании текстов вы часто используете некоторое сочетание языков, для удобства можно объединить эти языки в группу.

  1. Откройте закладку Языки в диалоге Настройки (меню Инструменты > Настройки...).
  2. Нажмите кнопку Новый...
  3. В открывшемся диалоге Новый язык или группа языков выберите пункт Создать новую группу языков и нажмите ОК.
  4. Откроется диалог Свойства группы языков.
    В данном диалоге задайте имя группы и выберите подключенные языки.
    Вы можете указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоге Свойства группы языков нажмите кнопку Дополнительно... и в диалоге Дополнительные свойства группы языков введите соответствующие символы в поле Исключенные из распознавания символы.
  5. Нажмите кнопку ОК.

Созданная группа появится в выпадающем списке языков на главной панели инструментов.

По умолчанию пользовательская группа языков будет сохранена в папку OCR-проекта. Вы также можете сохранить все пользовательские языки и эталоны в один файл в группе Пользовательские эталоны и языки на закладке Распознавание диалога Настройки (меню Инструменты > Настройки...).

Совет. Комбинацию языков вы можете указать непосредственно в выпадающем списке языков окна OCR-редактора.

  1. В выпадающем списке языков на главной панели инструментов выберите пункт Полный список языков...
  2. В открывшемся диалоге Редактор языков отметьте пункт Укажите OCR-языки вручную.
  3. Выберите необходимые языки и нажмите кнопку ОК.

02.11.2018 16:19:56


Please leave your feedback about this article