Classification à partir de la base de données des entreprises

Quand utiliser une classification fondée sur les entreprises

La classification attribut chaque document à une catégorie particulière (pour plus d'informations, consultez la section Classification). Chaque entreprise émettrice de documents peut être traitée comme une catégorie distincte.

En règle générale, les documents émanant de la même entreprise se ressemblent et comportent les mêmes types de champs positionnés aux mêmes endroits, ce qui facilite l'extraction des données.

Les documents peuvent être classifiés à l'aide d'une base de données d'entreprises. Cette base de données doit être incluse dans le projet ABBYY FlexiCapture correspondant. Pour renseigner cette base de données, vous pouvez utiliser la liste des entreprises stockées dans votre système ERP. ABBYY FlexiCapture synchronise régulièrement la base de données d'entreprises avec les dernières données de votre système ERP. Si vous ne disposez pas encore d'une base de données d'entreprises, vous pouvez la créer en capturant des données dans les documents, en ajoutant des entreprises dans une base de données à l'étape de vérification des documents.

Le programme recherchera les champs nécessaires uniquement sur la première et la dernière page de chaque document, car les informations sur l'entreprise se trouvent généralement sur ces pages.

La classification à partir des entreprises présente les avantages suivants par rapport aux autres méthodes de classification :

  • Il est inutile de collecter des exemples d'images de documents pour créer un ensemble d'apprentissages, ce qui peut nécessiter beaucoup de temps et d'efforts.
  • Les documents peuvent être classifiés sur la base de 100 000 catégories maximum, ce qui est beaucoup plus que dans le cas de la classification à partir des images et du texte.

La classification à partir des entreprises peut être utilisée pour l'extraction de champs. Chaque entreprise dispose de sa propre version de section, pour laquelle vous pouvez former ou créer une FlexiLayout distincte.

Remarque : Au sein d'un projet, les éléments suivants peuvent être utilisés simultanément :

  • un classificateur de types de document sur le plan du type de lot ou du projet
  • un classificateur fondé sur l'entreprise pour les documents de même type sur le plan de la définition de document

Tout d'abord, le programme exécute le classificateur de types de document pour déterminer la catégorie des documents disponibles, puis il exécute le classificateur fondé sur l'entreprise pour les documents de la catégorie requise.

Les versions de document que le classificateur détecte en se fondant sur la base de données des entreprises permettent d'identifier de manière unique les FlexiLayouts formées devant être utilisées pour l'apprentissage. Cela signifie que l'apprentissage du champ sera effectué indépendamment pour chaque entreprise.

Configuration de la classification à partir des entreprises

La classification à partir des entreprises est effectuée dans une définition de document ou en d'autres termes, pour des documents du même type. Les documents de même type ont des ensembles de champs de données identiques à extraire (pour plus d'informations, consultez la section Définitions de document).

Comment classifier des documents à l'aide d'une base de données des entreprises :

  1. Cliquez avec le bouton de droite de la souris sur une section de document, puis cliquez sur Propriétés ou ouvrez l'éditeur de définition de document, puis cliquez sur Définition de document → Propriétés de la définition de document.
  2. Dans l'onglet Jeux de données, sélectionnez un jeu de données dans la liste et cliquez sur le bouton Configurer....
  3. Sélectionnez l'option Utiliser la base de données des entreprises. Par défaut, les colonnes requises et leurs types sont déjà spécifiés dans le jeu de données. (Un jeu de données est essentiellement un tableau contenant une liste de champs dans laquelle rechercher des entreprises ; les utilisateurs ne peuvent pas modifier ce tableau.)
  4. Pour associer le jeu de données à une base de données compatible ODBC, vous devez assigner chaque champ du jeu de données à son équivalent dans la base de données. Pour des instructions détaillées, consultez Association des bases de données du fournisseur et de l'unité opérationnelle.
    Remarque : Le programme recherchera les entreprises dont les champs de données ont été assignés à leurs champs de base de données correspondants. Vous devez assigner au moins un champ (p.ex., le nom de l'entreprise) Si un champ du jeu de données n'a pas de champ de base de données correspondant, spécifiez Aucun lors du mappage de ce champ.
    Remarque : Seuls certains champs sont utilisés pour rechercher des informations sur la société dans un document. Ces champs ont une petite icône cadenas à côté d'eux. Vous pouvez ajouter vos propres champs personnalisés lors de la configuration de la classification à partir des entreprises, mais ces champs seront utilisés uniquement pour afficher des informations.
  5. Pour rechercher les noms d'une entreprise ayant plusieurs variantes, utilisez la normalisation, un processus qui réduit toutes les variantes de nom à un nom standard. Dans la boîte de dialogue Mappage de colonnes de jeux de données, spécifiez le type nécessaire de normalisation dans le champ Normalisation  (pour plus d'informations, consultez Normalisation des valeurs dans les jeux de données).

Il arrive parfois que le nom d'une entreprise soit connu à l'avance, par le biais des paramètres de la source de données, par exemple (c'est-à-dire, le nom de l'opérateur de numérisation ou l'adresse de messagerie de l'expéditeur).

ABBYY FlexiCapture est doté d'une fonction qui permet de spécifier explicitement le fournisseur et la sous-division de l'entreprise avant la détection automatique.

Pour spécifier explicitement les sous-divisions, définissez la valeur du paramètre d'enregistrement de document fc_Predefined:PredefinedSectionVariantId à l'identificateur (Id) de l'entrée appropriée dans Jeu de données. Dans ce cas, la procédure de détection automatique de l'entreprise sera toujours effectuée pour l'entrée donnée. En conséquence, vous obtiendrez le nom de l'entreprise explicitement spécifié et une valeur de confiance qui indique dans quelle mesure le nom explicitement spécifié correspond au nom extrait d'une image.

Remarque : Cette méthode peut être utilisée uniquement si une seule section d'un document comporte plusieurs versions.

Vérification et modification des résultats de la classification à partir des entreprises

Aucun apprentissage n'est requis pour la classification de documents à l'aide d'une base de données des entreprises, car le programme recherche les entreprises dans une liste prédéfinie de noms d'entreprises. Les erreurs de classification peuvent être corrigées par les opérateurs. Chaque fois que le programme attribue un document à la mauvaise entreprise, l'opérateur peut sélectionner le nom correct de l'entreprise et l'enregistrer dans la base de données. Le programme utilisera ensuite ces informations correctes lors des classifications ultérieures.

Pour permettre à l'opérateur de corriger les erreurs de classification, vous devez afficher les résultats de la classification sur le formulaire de données et ajouter un bouton qui lancera la recherche de champ. Pour ce faire, procédez de la manière suivante :  

  1. Créez un champ de service.
      • Dans Éditeur de définition de document, cliquez sur Créer un champ → Champ de service. Puis, dans Propriétés du champ, cliquez sur l'onglet Source des donnéeset sélectionnez Identifiant de la variante de la section flexible dans la liste Source .
      • Créez tous les champs de service qui peuvent être nécessaires à l'identification de la société (par exemple, IBAN et VATID).
  1. Créer une règle de vérification de base de données :  
      • Cliquez avec le bouton de droite sur le groupe, cliquez sur Propriétés..., cliquez sur l'onglet Règles, puis cliquez sur le bouton Nouvelle règle....
      • Sélectionnez Vérification de base de données dans la liste, puis cliquez sur OK.
      • Dans le champ Source de données, sélectionnez Jeux de données. Puis, dans le champ Jeux de données, sélectionnez le jeu de données nécessaire.
      • Dans le champ Champ dans lequel sauvegarder l'identifiant de l'enregistrement, sélectionnez le champ de service que vous avez créé dans l'étape 1.
      • Cliquez sur le bouton Ajouter et spécifiez les champs de document et de base de données nécessaires. Si les valeurs des champs de document et de base de données sont différentes, sélectionnez les options de recherche et de remplacement (Entrer les valeurs à partir de la base de données → Si les valeurs diffèrent).

Désormais, tous les champs détectés par le classificateur à des fins de classification à partir des entreprises auront une région.

  1. Ajouter un bouton au formulaire de données pour ouvrir la boîte de dialogue Rechercher :
      • Cliquez avec le bouton de droite n'importe où sur le formulaire de données dans lequel vous souhaitez insérer le bouton, puis cliquez sur Insérer un bouton dans le menu contextuel.
      • Dans l'onglet Format, sélectionnez la règle de vérification de base de données que vous avez créée à l'étape 2.
      • Dans l'onglet Position, attribuez un nom au bouton.

Désormais, un opérateur de vérification pourra cliquer sur ce bouton du formulaire pour ouvrir la boîte de dialogue Rechercher.

Amélioration de la classification à partir des entreprises

Spécifier des mots-clés et des expressions régulières

Vous pouvez spécifier des mots-clés et des expressions régulières pour améliorer la détection des entreprises. Pour les mots-clés, utilisez des chaînes qui identifient de manière unique une entreprise, telles que des données extraites des champs VATID ou IBAN.

Modification des enregistrements de l'entreprise

Une autre façon d'améliorer la détection de l'entreprise consiste à modifier les enregistrements de l'entreprise stockés par ABBYY FlexiCapture. Pour chaque entreprise, plusieurs variantes de noms et plusieurs adresses peuvent être spécifiées. Cela peut être effectué par l'administrateur à l'aide de l'éditeur de définition de document ou par un opérateur de vérification.

Il convient de noter que seuls les enregistrements des entreprises stockés par ABBYY FlexiCapture seront modifiés. Même si la synchronisation avec une base de données externe (p.ex., un système ERP) est activée, aucune modification apportée par l'administrateur ou les opérateurs de vérification ne sera transférée à la base de données externe.

Les opérateurs peuvent ajouter de nouveaux enregistrements et modifier des enregistrements existants si la définition de document le permet.

Par défaut, les opérateurs ne sont pas autorisés à ajouter ni à modifier des enregistrements. Pour autoriser l'ajout ou la modification des enregistrements par les opérateurs :

  1. Dans l'éditeur de définition de document, cliquez sur Définition de document → Propriétés de la définition de document....
  2. Dans la boîte de dialogue qui s'affiche, cliquez sur l'ongletJeux de données.
  3. Sélectionnez un jeu de données dans la liste et cliquez sur le bouton Configurer....
  4. Sélectionnez les options Les opérateurs peuvent ajouter des enregistrements et Les opérateurs peuvent modifier des enregistrements.

Pour empêcher les opérateurs d’ajouter et de modifier des enregistrements, désactivez les deux options ci-dessus.

15.03.2021 9:22:26


Please leave your feedback about this article