Russian (Русский) - Change language

Обучение с использованием кластеризации

Во время обучения обрабатываемые в ABBYY FlexiCapture документы распределяются по пакетам обучения, привязанным к поставщику. Такие документы обычно имеют похожее расположение элементов, что позволяет обучить гибкое описание и эффективно применять его во время верификации. Если от одного поставщика поступают документы, расположение элементов на которых сильно отличается, то для обучения нужно использовать кластеризацию.  Кластеризация — это автоматический анализ документов и распределение их на кластеры (группы) по набору идентичных признаков. Если включить кластеризацию, то ABBYY FlexiCapture for Invoices будет автоматически относить каждый документ к тому или иному кластеру, а обучаемые гибкие описания будут создаваться для каждого кластера.

Кластеризация по умолчанию включена. Для того, чтобы ее отключить, необходимо сделать следующее:

  1. В главном меню Редактора определения документа выберите пункт Определение документа → Свойства определения документа....
  2. Перейдите на вкладку Настройки определения документов.
  3. Нажмите кнопку Редактировать... справа от группы Дополнительные поля и возможности. Откроется окно Свойства определения документа.
  4. Отключите опцию Включить кластеризацию.

Документы, на которых производится обучение, будут добавлены в пакет обучения, привязанный к данному поставщику. Если кластеризация включена, а от одного поставщика поступают документы с разным расположением полей, то документы будут распределяться на кластеры внутри пакета обучения поставщика. Для каждого кластера обучается отдельное гибкое описание, обучение начинается при наличии хотя бы одного документа, принадлежащего данному кластеру. Обратите внимание, что кластеризация происходит в автоматическом режиме, а кластеры не отображаются для пользователя.

Если у вас нет внешней базы данных, но вы хотите использовать обучение, то накапливайте данные о компании в процессе ввода инвойсов, добавляя записи в наборы данных – локальную базу данных. Подробнее см. статью Поиск в справочнике информации о поставщике и подразделении.

Во время обучения создается гибкое описание:

  • Если кластеризация выключена, то документы распределяются в пакеты обучения по поставщикам, и для каждого поставщика создается одно гибкое описание.
  • Если кластеризация включена, то документы внутри пакета обучения распределяются на кластеры, и для каждого кластера создается свое гибкое описание.

Замечание. При обновлении проекта, созданного в более ранней версии ABBYY FlexiCapture, вы можете использовать имеющиеся гибкие описания без каких-либо изменений. Однако при обучении с использованием кластеризации документы будут перераспределены по пакетам обучения с учетом кластеров, и для каждого кластера будет создано новое гибкое описание.

Если качество распознавания документов для какого-либо поставщика вас не устраивает, вы можете создать гибкое описание или экспортировать обученное гибкое описание и отредактировать его в ABBYY FlexiLayout Studio.

Отредактированное или созданное с нуля гибкое описание может быть импортировано в пакет обучения и использовано для определенного поставщика. Подробнее см. Обучение настройщиком проекта.

Если вы обучаете гибкое описание с использованием кластеризации, то обратите внимание на некоторые ограничения:

  • Если вы хотите создать гибкое описание вручную, то необходимо учесть особенности всех разновидностей документов от данного поставщика. Для одного кластера гибкое описание не может быть создано вручную.
  • Экспортируется только гибкое описание для основных полей инвойса. Для позиций инвойса гибкое описание не создается автоматически, так как для таких полей используется другой способ машинного обучения, и его результаты не могут быть экспортированы и отредактированы.  Однако гибкое описание для позиций инвойса может быть создано вручную.
  • Если включена кластеризация, то экспортируется только обученное гибкое описание для первого кластера.
  • После того, как созданное или отредактированное гибкое описание будет загружено в пакет обучения:
    • Обучение в процессе ввода не производится;
    • Кластеризация для этого пакета отключается;
    • Загруженное гибкое описание применяется ко всем документам данного поставщика, независимо от кластера.

1/14/2021 2:17:24 PM


Please leave your feedback about this article