Russian (Русский) - Change language

Классификация документов по справочнику компаний

Когда нужна классификация по компаниям?

В процессе классификации документам присваиваются определенные классы. В данном случае - классы, соответствующие компаниям, которые выпустили документ. (Подробнее про классификацию документов см. Классификация).

Как правило, документы от одной компании имеют одинаковый внешний вид, расположение и типы полей, что упрощает задачу извлечения данных из документа.

Для классификации документов используется поиск по справочнику компаний. Физически справочник компаний хранится внутри проекта FlexiCapture. Источником данных для справочника может быть список компаний-контрагентов в ERP-системе. Тогда FlexiCapture будет регулярно синхронизировать данные в справочнике с данными в ERP-системе. Если списка компаний нет, то его можно создать в процессе ввода документов, добавляя компании в справочник на этапе верификации документов.
Поиск необходимых полей выполняется только на первой и последней страницах документа, т.к. обычно на этих страницах расположены данные о компании.

Преимущества классификации документов по справочнику компаний:

  • отсутствие трудоёмкого этапа по созданию обучающей выборки, т.к. не нужно собирать примеры изображений документов;
  • возможность классификации по 100 тысячам классов, что существенно превышает возможности классификации по изображению или тексту.

Классификация документов по списку компаний может быть использована для извлечения полей. В этом случае каждая компания является разновидностью раздела (Section Variant). И для каждой разновидности раздела может быть обучено или разработано вручную свое гибкое описание.

Замечание. В рамках одного проекта могут быть использованы одновременно:

  • классификатор по типам документов на уровне типа пакета или проекта;
  • классификатор по компаниям в рамках документов одного типа на уровне определения документа.

В таком случае сначала классификатор определяет класс имеющихся документов, а потом запускается классификатор по компаниям на документах нужного класса.

Разновидности документа, определенные классификатором по справочнику компаний, уникально определяют обученные гибкие описания, которые будут применяться для обучения.  Т.е. обучение полей дальше будет работать независимо для каждой компании (разновидности документа).

Настройка классификации документов по справочнику

Классификация по компаниям выполняется внутри определения документа, т.е. для документов одного типа. Тип документа – это документы с одним набором полей для извлечения. Подробнее см. Создание определения документа.

Чтобы классифицировать документы по справочнику компаний:

  1. Откройте диалог свойств раздела документа (контекстное меню раздела документа, пункт Свойства) или диалог свойств определения документа (меню Редактора определения документа, пункт Определение документа → Свойства определения документа).
  2. Перейдите на вкладку Наборы данных, выделите Набор данных и нажмите кнопку Настроить....
  3. Включите опцию Использовать базу данных компаний. По умолчанию в Наборах данных заданы необходимые столбцы и их типы. По сути Наборы данных — это таблица со списком полей для поиска компании, пользователь не может изменять этот список.
  4. Для подключения Набора данных к ODBC-совместимой базе данных необходимо сопоставить каждому полю в Наборе данных поле с данными из внешней базы данных. Подробнее см.  Подключение справочников поставщиков и подразделений компаний.
    Замечание. Поиск компании будет выполняться, если поле Набор данных связано с полем внешней базы данных и содержит данные. Необходимо сопоставить как минимум одно поле, например, название компании.  Если в вашей базе данных такого поля нет, при сопоставлении полей укажите None.
    Замечание. В поиске информации о компании на документе участвуют только предопределенные поля, которые в списке отмечены замочком.
    Во время настройки могут быть добавлены пользовательские поля, но они используются только для отображения информации.
  5. Для поиска названий компаний, записанных по-разному, но одинаковых по сути, используйте нормализацию. Ее цель – привести значения к одному виду для последующего сравнения. В окне Настройка соответствия столбцов набора данных в Наборе данных укажите в поле Нормализация тип нормализации (см. Нормализация значений в Наборе данных).

Компания может быть известна заранее, например, по параметрам источника документа (имени оператора сканирования или электронному адресу отправителя письма).

ABBYY FlexiCapture предусматривает возможность явно задать поставщика и/или подразделение компании до автоматического детектирования.

Для этого в качестве значения регистрационного параметра документа fc_Predefined:PredefinedSectionVariantId необходимо задать идентификатор (Id) соответствующей записи из Набора данных. В этом случае процедура автоматического определения компании всё равно сработает для данной записи. В результате будет получено не только предопределённое значение в качестве компании, но и признак уверенности (насколько данная предопределённая запись хорошо соответствует изображению по мнению программы).

Замечание. Такой способ подходит в том случае, если в документе только один раздел имеет несколько вариантов.

Проверка и редактирование результатов классификации по компаниям

Классификация документов по справочнику компаний не требует обучения. Поиск компании осуществляется по списку. Если в результате классификации будет выбрано неправильное значение, оператор может исправить его. После сохранения результат будет записан в базу данных. В дальнейшем это значение будет использоваться при классификации.

Чтобы оператор мог исправить значение, необходимо вывести результат работы классификатора по компаниям на форму данных и добавить кнопку для поиска полей.  Для этого выполните следующие действия:

  1. Создайте служебное поле.
      • В свойствах определения документа выберите в меню Создать поле → Служебное поле и в свойствах поля на вкладке Источник данных в списке Источник выберите Идентификатор Разновидности гибкого раздела.
      • Создайте необходимые служебные поля, которые используются для идентификации компании, например, название, IBAN, VATId.
  1. Создайте правило проверки по базе данных. Для этого:
      • в контекстном меню группы выберите Свойства, перейдите на вкладку Правила и нажмите кнопку Новое правило...;
      • выберите в списке Проверка по базе данных и нажмите ОК;
      • в поле Источник данных выберите Наборы данных, в поле Наборы данных выберите необходимый набор;
      • в поле Поле для сохранения идентификатора записи выберите созданное служебное поле;
      • нажмите кнопку Добавить и укажите необходимые поля на документе и в справочнике. Выключите опцию поиска и включите опцию замены, в случае, если значения отличаются (Заполнять из базы данных → Если значения различаются).

В результате, поля, которые были найдены классификатором для выбора определенной компании, будут иметь регион.

  1. Добавьте на форму кнопку для открытия диалога Поиска поля:
      • Нажмите правой кнопкой мыши в нужное место на форме данных, выберите в меню Вставить кнопку;
      • На вкладке Формат выберите ранее созданное правило проверки по базе данных;
      • На вкладке Расположение задайте имя кнопки.

В результате, при верификации по нажатию этой кнопки оператор откроет диалог Поиска поля.

Улучшение результатов классификации по компаниям

Задание ключевых слов и регулярных выражений

Для более точного поиска подходящей компании в базе данных задайте ключевые слова и регулярные выражения для них. Ключевые поля - это поля, которые являются уникальными идентификаторами компаний. Например, налоговый номер (VATID) и банковский счет (IBAN).

Редактирование данных в справочнике

Другой способ улучшения результатов – редактирование данных в копии справочника, хранящегося внутри FlexiCapture. Это может быть сделано как в редакторе определения документов администратором, так и оператором во время верификации.  Для одной записи можно задать несколько вариантов написания названия компании, несколько адресов. Это поможет более корректно найти данные о компании в документе.

Обратите внимание, что будут отредактированы только записи, входящие в набор данных, который хранится во FlexiCapture. При включенной синхронизации с внешней базой данных (например, ERP-системой) новые, добавленные оператором или администратором, записи не будут переданы во внешнюю систему. Те данные, которые были изменены, сохранятся в копии справочника в программе для более точной классификации.

Оператор может добавлять новые записи и редактировать существующие, если это разрешено в настройках определения документа.

По умолчанию возможности редактирования и добавления новых записей запрещены операторам. Чтобы их разрешить:

  1. В главном меню Редактора определения документа выберите Определение документа → Свойства определения документа....
  2. В открывшемся окне перейдите на вкладку Наборы данных.
  3. Выберите Набор данных из списка. Нажмите кнопку Настроить....
  4. Отметьте галочками опции Операторам разрешено добавлять записи и/или Операторам разрешено редактировать записи.

В случае, если эти возможности операторам надо запретить, — снимите галочки с данных опций.

1/14/2021 2:17:24 PM


Please leave your feedback about this article