Russian (Русский) - Change language

Обучение гибкого описания

Процесс создания гибкого описания можно упростить с помощью обучения гибкого описания на основе размеченных полей и статических (опорных) элементов. Статические элементы - это элементы, повторяющиеся на изображениях документов данного типа. Статические элементы, в основном, представляют собой статический текст (слово, часть слова, строка), реже - разделитель или штрих-код. Поля представляют собой искомые блоки, содержащие текст (слово, часть слова, строка, абзац) или штрих-код.

В результате обучения создаётся гибкое описание, которое находит поля на изображениях на основании отношений, выстроенных относительно статических элементов.

В ABBYY FlexiCapture текущей версии реализована возможность обучения нескольких вариантов гибкого описания. В данном случае набор полей является общим для всех вариантов описания, а статические элементы настраиваются для каждого варианта независимо. Приложение позволяет обучить выбранный вариант описания как в режиме обучения, так и в процессе отладки гибкого описания.

При обучении гибкого описания важно помнить следующее:

  • Обучение производится на страницах, добавленных пользователем в обучающий набор. Добавить страницы можно на любом этапе до запуска генерации варианта гибкого описания. Обучающий набор должен состоять минимум из 3-х страниц.
  • Для текущего выбранного варианта гибкого описания настраиваются только статические элементы, поля являются общими для всех вариантов гибкого описания.
  • При изменении варианта гибкого описания, если на странице есть неразмеченные поля или опорные элементы, на нее автоматически накладывается описание. В результате имеющаяся разметка дополняется, при этом регионы размеченных полей остаются прежними.
  • Обучение гибкого описания не является обратно синхронизируемым. То есть, если в сгенерированное гибкое описание добавить блоки, поля и статические элементы, то в режиме обучения они автоматически не появятся. Можно инициализировать блоки из гибкого описания с помощью пункта контекстного меню Initialize Fields By Blocks.

Создание гибкого описания в режиме обучения

Для того чтобы создать гибкое описание в режиме обучения, выполните следующие действия:

  1. Создайте новый проект или откройте проект, который уже содержит гибкое описание.
  2. Перейдите в режим обучения. Для этого нажмите кнопку или выберите пункт главного меню TrainingTraining Mode.
  3. В окне Batch выполните следующие шаги:
  4. Предраспознавание изображений (пункт Pre-Recognize контекстного меню или меню Batch).
  5. Двойным щелчком мыши откройте изображение. Проанализируйте результаты предраспознавания, наметьте поля и статические элементы, с помощью которых будет производиться обучение гибкого описания.
  6. В окне Training выполните следующие действия:
  7. В выпадающем списке Reference Alternative выберите вариант гибкого описания или создайте новый.
  8. Для автоматической генерации опорных элементов оставьте включенной опцию Auto references. Соответственно, для ручного создания опорных элементов

    отключите данную опцию

    .
  1. В окне Image разметьте области полей/статических элементов на странице:
    • Команда Create Block (кнопка ) позволяет выделить область необходимого блока. Название размеченного поля блока добавляется в список Fields.
    • Команда Create Element (кнопка ) позволяет выделить область необходимого статического элемента. Название размеченного элемента добавится в

      список Static elements

      .
  • Поля и статические элементы также можно создать с помощью команд контекстного меню. В данном случае необходимо вручную разметить области полей/элементов с помощью инструмента Draw Location .
  1. После того, как все необходимые поля и статические элементы размечены, добавьте страницы в набор для обучения (отметьте страницы галочкой в столбце Used For Training в окне Batch).
  2. Наложите предварительный вариант описания. Для этого выберите пункт Predict Draft Layout контекстного меню изображения.
  3. Проверьте, правильно ли найдены поля и элементы на всех страницах пакета. При необходимости скорректируйте разметку. Добавьте в обучающий набор страницы, при автоматической разметке которых были допущены ошибки.
    Элемент, который не был найден на странице, можно пометить как отсутствующий. Для этого выберите пункт Not Present контекстного меню элемента (кнопка ) или нажмите средней кнопкой мыши по области поля/элемента на изображении. Название элемента при этом зачеркивается одинарной линией. Такое выделение позволяет упростить просмотр невыполненной разметки.
    Состояние страницы документа можно быстро оценить по пиктограмме столбца Training Layout State, а именно:
    • No elements marked – на странице не размечено ни одно поле или опорный элемент;
    • Has unmarked elements – на странице размечены не все поля и/или опорные элементы; не все неразмеченные элементы указаны как отсутствующие;
    • Has unmarked required element – на странице не размечен элемент, указанный как обязательный;
    • All elements marked – размечены все элементы, неразмеченные элементы указаны как отсутствующие;
    • No reference class set – не указан эталонный вариант для страницы обучения.
  1. С помощью кнопки запустите генерацию варианта гибкого описания. Если в проекте используется несколько вариантов описания, укажите варианты, которые необходимо обновить при генерации.

Обучение гибкого описания в процессе отладки

ABBYY FlexiCapture 12 позволяет обучить выбранный вариант гибкого описания не только в режиме обучения, но и в процессе отладки гибкого описания. В данном случае обучение запускается командой Train Alternative контекстного меню альтернативы гибкого описания. Для генерации варианта описания используется эталонная разметка блоков, а опорные элементы всегда создаются автоматически. Команда Train and Test Alternative обучает вариант описания и накладывает на все страницы своего класса.

Дополнительные настройки режима обучения

Дополнительные настройки режима обучения осуществляются на вкладке Training диалога Options...(меню ToolsOptions...Training).

В группе Navigation пользователь определяет режим навигации по страницам с неразмеченными элементами:

  • any unmarked element (по умолчанию) - перемещение по страницам, которые содержат произвольный неразмеченный элемент;
  • unmarked selected element - перемещение по страницам, которые содержат текущий выбранный неразмеченный элемент.

Указанный режим навигации осуществляется при нажатии кнопок и .

В группе Draft layout prediction содержатся параметры автоналожения обучаемого гибкого описания:

  • Predict layout automatically on navigation (кнопка ) - автоматически накладывать предварительный вариант описания при переходе по страницам.
  • Replace existing regions of fields on batch prediction - заменять размеченные области полей и элементов на аналогичные области, наложенные при отладке предварительного варианта гибкого описания.

В группе Template generation доступна следующая опция:

  • Create Identifiers on Generation - автоматически создать идентификаторы для обучаемого варианта описания (см. раздел Идентификаторы).

Идентификаторы

Идентификаторы документа - набор отличительных признаков документа, позволяющих отнести его к определенному типу. В качестве идентификаторов обычно служат характерные слова или словосочетания, определенное значение штрих-кода, разделитель и т. п.

В случае обучения варианта гибкого описания инструмент автосоздания идентификаторов формирует набор слов, которые чаще всего встречаются в текстовом слое документов, принадлежат данному варианту и отсутствуют в документах прочих типов.

Идентификаторы вариантов описания хранятся в группе Identifiers, помеченной как обязательная. Данная группа включает в себя список элементов типа статический текст, каждый из которых содержит ключевое слово для данного варианта описания. Отношения между различными группами идентификаторов, идентификаторами и полями не создаются.

Кнопки панели инструментов

01.12.2020 7:04:05


Please leave your feedback about this article