- О программе ABBYY FlexiCapture
- Установка и запуск программы
- Архитектура комплекса ABBYY FlexiCapture
-
Настройка программы
- Настройка программы ABBYY FlexiCapture
- Работа в мультитенантной системе
-
Создание проекта
- Свойства проекта
- Переменные окружения
- Импорт изображений
- Типы пакета
- Настройка процесса обработки
- Инструменты
- Приоритет пакета по умолчанию
- Настройка SLA
- Управление правами пользователей
- Регистрационные параметры
- Загрузка проекта на сервер
- Тестовый проект
- Настройка внешнего вида программы
- Качество отображения изображений
-
Создание определения документа
- Создание определений структурированного документа
- Создание определений для неструктурированных и частично структурированных документов
- Создание определений документов без автоматического извлечения данных
- Комплекты документов
-
Поля определения документа
- Текстовые поля ввода
- Метки
- Группы меток
- Штрих-коды
- Картинки
- Таблицы
- Группы полей
- Служебные поля
- Индексные поля
- Ссылка на существующее поле
- Поля без разметки
- Создание поля с непрямоугольной областью
- Поля с несколькими областями
- Поля с несколькими экземплярами
- Изменение названия поля
- Копирование, перемещение, удаление полей
- Исключение региона из распознавания
- Мастер создания определения документа
- Редактирование и публикация определения документа
- Настройка сборки многостраничных документов
- Свойства определения документа
- Свойства раздела документа
- Проверка с помощью правил
- Настройка экспорта
- Настройка отображения данных в окне документа
- Тестирование определения документа
- Локализация определения документа
-
Классификация
- Сценарии классификации
- Профили классификации
- Типы ошибок и баланс точности\полноты
-
Настройка классификации во FlexiCapture
- Предварительная настройка
- Загрузка изображений и настройка классификатора
- Обучение классификатора
- Анализ результатов классификации
- Рекомендации по улучшению качества работы классификатора
- Экспорт и подключение классификатора
- Соответствие классов и определений документов
- Классификация документов по справочнику компаний
- Обучение поиску полей
- Работа оператора с настроенным проектом
-
Работа с ABBYY FlexiCapture for Invoices
- Возможности ABBYY FlexiCapture for Invoices
- Процесс ввода инвойсов
-
Настройка проекта для ввода инвойсов
- Настройка стран и языков
- Подключение справочников поставщиков и подразделений компаний
- Настройка экспорта данных
- Статус документа в проекте ABBYY FlexiCapture for Invoices
- Обучение в ABBYY FlexiCapture for Invoices
- Правила
- Извлечение дополнительных полей инвойсов
- Проверка позиций инвойса
- Дополнительные возможности работы операторов
- Использование более одного определения документа
- Редактирование настроек обработки инвойсов в XML
- Обновление определения документа для обработки инвойсов
- Налоговые схемы
- Спецификации
- Обработка чеков в ABBYY FlexiCapture for Invoices
- Обработка заказов в ABBYY FlexiCapture for Invoices
- Обработка документов при помощи NLP
- Интерфейс программы ABBYY FlexiCapture
-
Приложения
-
Использование скриптов в ABBYY FlexiCapture
- Особенности .Net скриптов
- Подключение внешней сборки
- Объектная модель
-
Использование скриптов для настройки этапов обработки
-
Типы скриптов
- Скрипт правила
- Скрипт автозамены
- Скрипт экспорта
- Пользовательский скрипт
- Скрипт сборки документа
- Скрипт пользовательского распознавания
- Скрипт маршрутизации
- Скрипты обработки
- Скрипт обновления набора данных
- Скрипт валидации набора данных
- Скрипт классификации документа
-
Обработчики событий
- Создание пакета
- Удаление пакета
- Изменение свойств пакета
- Изменение состава пакета
- Перемещение страниц
- Открытие/закрытие пакета
- Проверка целостности пакета
- Изменение свойства документа
- Изменение состояния документа
- Скрипт после экспорта
- Скрипт после проверки правил
- Перед наложением определений документов
- Запрос на верификацию поля
-
Объекты
- IActionResult
- IAssemblingError
- IAssemblingErrors
- IBatch
- IBatchCheckResults
- IBatchItem
- IBatchItems
- IBatchTypeClassifier
- IBatchTypeClassifierResult
- IBinarizationParams
- IBoxedBoolean
- ICharacterParams
- ICharactersParams
- ICheckmarkGroupValue
- ICheckmarkValue
- IDataSet
- IDataSetQuery
- IDataSetRecord
- IDocument
- IDocuments
- IDocumentExportResults
- IDocumentsExportResults
- IDocumentDefinitionInfo
- IDocumentDefinitionInfoArray
- IEditablePictureObject
- IExportFieldsToRedact
- IExportImageSavingOptions
- IField
- IFieldRegion
- IFieldRegions
- IFields
- IFlexiCaptureTools
- ILocalContrastParams
- IMatchedSectionInfo
- IMatchingInfo
- IPage
- IPageClassificationResult
- IPages
- IPictureObject
- IPictureObjectsInfo
- IPrincipal
- IPrincipals
- IProcessingCallback
- IProject
- IProperties
- IProperty
- IPropertyModificationInfo
- IRecordCheckResult
- IRecordset
- IRect
- IRects
- IRoutingRuleResult
- IRuleContext
- IRuleError
- IRuleErrors
- IRuleTag
- IRuleTags
- IScriptBinaryAttributes
- IScriptDefinitionContext
- ISectionDefinitionInfo
- ISectionDefinitionInfoArray
- IShadowsHighlightsParams
- IStageInfo
- IUserAttachment
- IUserAttachments
- IUserSessionInfo
- IValue
- IVARIANTArray
- TAssemlingErrorType
- TBatchItemType
- TColorToFilter
- TExportFieldType
- TExportType
- TImageCompressionType
- TPageClassificationType
- TPdfAVersion
- TPdfDocumentInfoType
- TPdfTextSearchAreaType
- TPrincipalType
- TProcessingPriority
- TPropertyType
- TRuleErrorType
- TStateType
- Примеры скриптов
- Внутренние имена языков распознавания
-
Типы скриптов
-
Использование скриптов для обработки событий интерфейса
-
События
- После закрытия документа
- После закрытия проекта
- При активации документа в окне задания
- При активации поля
- При возврате из задания
- При вызове пользовательской команды
- При деактивации поля
- При закрытии документа
- При закрытии задания
- При закрытии проекта
- При изменении региона
- При изменении режима окна задания
- При открытии документа
- При открытии окна задания
- При отмене задания
- При отображении региона
- При отправке задания на этап
- При подтверждении текстового поля
-
Объекты
- IBoolean
- IBoxedFieldControl
- IDocumentEditor
- IDocumentItem
- IDocumentItems
- IDocumentsCollection
- IDocumentsWindow
- IDrawContext
- IErrorControl
- IErrorControls
- IErrorsWindow
- IFieldControl
- IFieldRegionControl
- IFieldRegionControls
- IFormWindow
- IImageWindow
- IMainMenu
- IMainWindow
- IMenu
- IMenuItem
- IPageControl
- IPageItem
- IPageItems
- IPagesCollection
- IPoint
- ISelection
- IShellRational
- IShellRect
- IShellRects
- ITaskWindow
- ITextEditor
- IToolbar
- IToolbarButton
- IToolbars
- TCommandBarType
- TCommandID
- TDockingType
- TDocumentState
- TErrorType
- TSelectionType
- TTaskWindowMode
- TTextSize
- TUserRole
- TWorkWindowType
-
События
- Пользовательский скрипт (Web Custom Action) для Веб-станции Верификации
- Создание машиночитаемых форм
-
Горячие клавиши
- Горячие клавиши на Станции Настройки Проектов
- Горячие клавиши на Станции Верификации
- Горячие клавиши на станции верификации данных
- Горячие клавиши в окне Редактора определения документа
- Горячие клавиши в окне групповой верификации
- Горячие клавиши в окне контекстной верификации
- Настройка горячих клавиш
- Дополнительные настройки
- Описание команд Сервера Обработки
- Встроенные примеры проектов FlexiCapture
- Поддерживаемые языки распознавания
- Поддерживаемые языки классификатора
- Шрифты для корректного отображения символов
- Поддерживаемые типы текста
- Поддерживаемые типы штрих-кодов
- Поддерживамые входные форматы
- Особенности работы с файлами формата PDF
- Форматы файлов экспорта
- Формат отображения даты
- Алфавит, используемый в регулярных выражениях
- Патенты
- Технологии других компаний
- Глоссарий
- Техническая поддержка
- Как купить программу ABBYY FlexiCapture
- Лицензионный договор с конечным пользователем
-
Использование скриптов в ABBYY FlexiCapture
Создание новой NLP-модели
Создание полей документа
Для каждой сущности, которую мы хотим извлечь из текста, надо в определении документа создать соответствующее ей поле. Чтобы создать такое поле:
- Откройте Редактор определения документа.
- Нажмите правой кнопкой мыши на название раздела документа и выберите Создать поле.
- Создайте поле типа Текст.
- На вкладке Общие отметьте опцию Может иметь регион.
- В графе Название укажите имя поля, которое будет отражать смысл хранимых в нем данных, например, PreambleSegment.
Внимание! Названия полей должны быть написаны слитно, не начинаться с цифр и содержать буквы только латинского алфавита.
Повторите перечисленные выше шаги для каждой сущности.
Замечание. Если будет применена сегментация, для каждого сегмента нужно создать отдельное текстовое поле.
Рекомендуем для каждого сегмента, из которого будут извлекаться сущности, использовать следующие настройки:
- создать неповторяемое поле в повторяющейся группе;
- в свойствах поля выбрать опцию Текстовый сегмент;
- выбрать опцию Разрешить несколько регионов, если сегмент может начинаться на одной странице, а заканчиваться на другой.
Создание NLP-модели сегментации
Сегментация повышает точность и скорость извлечения сущностей, но не является обязательным шагом. Для сегментации документа создается NLP-модель специального типа. Внимание! В каждом разделе документа может быть только одна модель сегментации.
Для создания модели сегментации:
- В Редакторе определения документа нажмите правой кнопкой мыши на название раздела документа.
- Выберите пункт Свойства....
- В открывшемся окне перейдите на вкладку NLP и нажмите кнопку Создать....
- Укажите Название новой NLP-модели например, SegmentationModel.
- Выберите тип модели Сегментация.
- Выберите Язык.
- Нажмите Далее....
- В открывшемся окне укажите все поля, в которые будут извлекаться сегменты.
- Нажмите ОК.
После создания NLP-модели сегментации ее необходимо обучить на целевых документах.
Замечание. Опция Разрешить обучение включена по умолчанию. Это означает, что NLP-модель будет обучаться во время обработки документов. Для этого надо запустить обучение на Пакете обучения извлечения полей. Результаты обучения могут быть отключены или удалены. Для этого выберите опцию Отключено или Удалить из контекстного меню нужного пакета.
Создание NLP-модели для извлечения сущностей
Основной шаг – это извлечение сущностей. Для этого используются NLP-модели, обученные на размеченных вручную документах. Чтобы создать NLP-модель:
- В Редакторе определения документа откройте свойства раздела документа и перейдите на вкладку NLP.
- Нажмите Создать....
- Укажите Название новой NLP-модели, например, EntitiesExtraction.
- В качестве источника данных выберите раздел документа. Если в документе применяется сегментирование, то источниками данных для конечных сущностей могут быть сегменты. В таком случае – выберите сегмент.
- Выберите Тип модели Извлечение.
- Выберите Язык.
- Нажмите Далее....
- Выберите результирующие поля, которые будут извлекаться из данного раздела документа или сегмента.
Повторите шаги 1-9 для каждого сегмента или раздела документа, из которого надо извлекать сущности.
- Сохраните определение документа: Определение документа > Сохранить.
- Закройте редактор определения документа, выберите пункт меню Определение документа > Закрыть.
- Опубликуйте определение документа. Для этого нажмите в окне Определения документа > Опубликовать.
Определение документа готово к использованию.
После создания NLP-модели извлечения ее необходимо обучить на целевых документах.
Замечание. Опция Разрешить обучение включена по умолчанию. Это означает, что NLP-модель будет обучаться во время обработки документов. Для этого надо запустить обучение на Пакете обучения извлечения полей. Результаты обучения могут быть отключены или удалены. Для этого выберите опцию Отключено или Удалить из контекстного меню нужного пакета.
14.01.2021 14:17:24