Russian (Русский) - Change language

Пользовательские словари

Пользовательский словарь – это вспомогательный словарь, составленный пользователем и содержащий список слов, которые не входят во встроенный словарь приложения. Пользовательский словарь подключается к предустановленным словарям с целью улучшения качества распознавания документов за счет добавления в словарь специализированных терминов, аббревиатур, названий компаний и т. д.

Подключение и настройка пользовательских словарей производится в дополнительных настройках предраспознавания (пункт меню FlexiLayout / Classifier → Properties → кнопка Advanced pre-recognition properties... → группа User Dictionaries).

В поле User Dictionaries отображается список существующих пользовательских словарей с указанием следующей информации:

  • Enabled - используется ли данный словарь;
  • Name - название пользовательского словаря;
  • Language - язык словаря.

Создание и редактирование пользовательского словаря

Для добавления пользовательского словаря нажмите кнопку Add... на вкладке Languages свойств гибкого описания/классификатора.

Далее в диалоговом окне Add New Dictionary укажите следующую информацию:

  • Dictionary name - название словаря;
  • Definition method - тип словаря:
    • Dictionary file - пользовательский словарь на основе подключаемого файла словаря (*.dic).
    • Regular expression - пользовательский словарь на основе заданного регулярного выражения.

Тип словаря указывается при его создании и не может быть изменен в дальнейшем.

  • Is language-neutral (только для словаря типа Regular expression) - при выборе данной опции пользовательский словарь подключается ко всем предустановленным словарям используемых языков распознавания. При этом параметр Language принимает значение Neutral и становится недоступным для редактирования.
  • Language (locale) - в выпадающем списке выберите язык словаря. Данный параметр указывается при создании словаря и не может быть изменен в дальнейшем.

После нажатия кнопки OK выводится диалоговое окно, в котором содержатся все параметры словаря: редактируемые и нередактируемые.

На вкладке General диалогового окна Properties of %dictionary name% содержится общая информация о словаре: название словаря, комментарий пользователя, тип и язык словаря. Название словаря и комментарий пользователя могут быть изменены в процессе работы.

На вкладке Dictionary указываются параметры текущего типа словаря, а также задается пользовательский алфавит, если необходимо.

  • Для пользовательского словаря типа Dictionary file укажите путь к DIC-файлу подключаемого словаря (кнопка  ) или создайте новый пользовательский словарь. Чтобы создать словарь, нажмите кнопку  Create new dictionary.... В диалоговом окне Create New Dictionary File введите название файла словаря и нажмите кнопку OK. Далее в окне редактора пользовательского словаря введите необходимые значения.

    Команды редактора пользовательского словаря

После создания файл пользовательского словаря хранится в папке проекта и имеет расширение *.dic.

  • Для пользовательского словаря типа Regular expression введите регулярное выражение. Нажатие кнопки   открывает меню, с помощью которого можно быстро ввести необходимое регулярное выражение. Также см.  Алфавит, используемый в регулярных выражениях.

Внимание! Слова пользовательского словаря имеют более высокий приоритет по отношению к словам предустановленных словарей. Включение опции Prefer words from dictionary ещё больше повышает приоритет слов пользовательского словаря.

Пользовательский алфавит

В группе Alphabet задается пользовательский алфавит - набор символов, разделителей, префиксов и суффиксов, разрешенных в словах пользовательского словаря. При совместном использовании пользовательского словаря и пользовательского алфавита в случае, если словарное слово содержит неалфавитные символы, такое слово считается несловарным. Таким образом, с помощью пользовательского алфавита можно ограничить набор символов, используемых в пользовательском словаре.

Чтобы задать набор разрешенных символов, включите опцию Use custom alphabet. Далее введите необходимые символы непосредственно в текстовом поле или задайте с помощью редактора пользовательского алфавита. Окно редактора пользовательского алфавита открывается при нажатии кнопки Edit....

Чтобы задать разрешенные разделители, префиксы и суффиксы, а также игнорируемые символы, нажмите кнопку Advanced parameters. В диалоговом окне Advanced custom alphabet parameters введите необходимые знаки пунктуации.

  • Punctuation marks adjoining the beginning of word - знак пунктуации, примыкающий к началу слова. Например, "_неизвестен".
  • Punctuation marks adjoining the end of word - знак пунктуации, примыкающий к концу слова. Например, "пользователь&".
  • Standalone punctuation marks - знак пунктуации, не примыкающий к слову. Например, "январь | "

В группе Exclusion characters указываются символы, которые игнорируются при проверке слова по пользовательскому словарю. Например, при поиске телефонного номера с помощью регулярного выражения "+33NNNNNNNN" и при указании символа "-" в качестве игнорируемого, словарными значениями считаются следующие варианты: "+33-11111111", "+33-111-11-111", "+33-111-111-11" и т. д.

11/10/2020 12:08:08 PM


Please leave your feedback about this article