Russian (Русский) - Change language

Нормализация значений в Наборе данных

Данная статья описывает типы нормализации, которые можно использовать при подключении столбцов внешней базы данных к Набору данных в определении документа ABBYY FlexiCapture for Invoices, а также их настройку.

Цель нормализации значений — привести по-разному записанные, но одинаковые по сути значения к одному виду для последующего сравнения.

Например, один и тот же адрес компании или её название могут быть записаны большим числом способов. При этом это всё-таки одна и та же компания, расположенная по одному конкретному адресу. Для сравнения подобных значений применяется нормализация.

Тип нормализации задаётся при настройке соответствия столбцов в Наборе данных и во внешней базе для каждого столбца Набора данных.

Нормализация применяется только для значений, которые хранятся в Наборе данных (в свойствах Набора данных должна быть включена галочка Хранить данные), значения во внешней базе данных никак не изменяются.

Как работает нормализация при извлечении данных в программе?

1. Текст

Рекомендуется применять для сравнения текстовых значений, таких как имя компании или адрес.

  1. замена всевозможных пробелов и символов-разделителей на обычные пробелы;
  2. обработка точек. Точки между словами (разделители) заменяются на пробелы, точки внутри аббревиатур удаляются;
  3. обработка символов-союзов (&, +, -, /, ~):
    • цепочки отдельных слов, которые идут через одинаковый союз и начинаются с однобуквенного слова, объединяются в одно слово. Например, R & D заменяется на R&D;
    • во всех остальных случаях символы-союзы удаляются: Procter&Gamble заменяется на Procter Gamble.
  4. удаление двойных пробелов;
  5. разрезание слов по заданному списку. Например, CoKG заменяется Co KG;
  6. разрезание всего полученного текста значения на слова по пробелам;
  7. автозамена суффиксов для каждого слова по заданному списку. Например, суффикс strasse заменяется на суффикс str.
  8. автозамена слов целиком по заданному списку. Например, слово Limited заменяется целиком на слово Ltd.

Алгоритм нормализации параметризуется через файл Normalization.xml, который хранится в папке проекта.

Подробнее...

Замечание. Алгоритм может существенно измениться в следующих версиях программы.

2. Буквенно-числовой код

Рекомендуется применять для сравнения буквенно-цифровых кодов, таких как идентификационные номера для уплаты налогов, банковские счета, почтовые индексы.

Из значения удаляются все символы, за исключением цифр и букв. Это позволяет сравнивать коды, игнорируя пробел, тире, косую черту и прочие знаки в записи.

Если применяется нормализация, то при задании соответствия столбца Набор данных и столбца внешней базы данных, доступна галочка Сохранять нормализованное значение.

  • При включении данной галочки внутри Набора данных будет сохранено уже нормализованное значение.
  • Если галочка не включена, то будет скопировано исходное значение из внешней базы данных.

Этот выбор никак не влияет на извлечение данных или на автоматические проверки, но будет определять, какое значение будет показано оператору при поиске записи по справочнику.

1/14/2021 2:17:24 PM


Please leave your feedback about this article