Amélioration de votre classificateur

Conseils pour améliorer les classificateurs

Si les résultats fournis par le classificateur ne vous satisfont pas, essayez ce qui suit :

  • vérifiez si le profil de classification spécifié est adéquat.
  • Ajustez l'équilibre rappel/précision.
  • Vérifiez si les catégories de référence ont été attribuées correctement.
  • Utilisez un plus grand nombre de documents types pour former le classificateur. Essayez d'inclure autant de versions de documents que possible dans le lot d'apprentissages. Plus le lot d'apprentissage est important et varié, plus le classificateur sera en mesure de détecter plusieurs versions de document de la même catégorie.

Degré de confiance de l'association de la définition de document

Un classificateur associe une définition de document avec un certain degré de confiance. Ceci est intrinsèquement lié à la catégorie d'un document.

Les noms des sections avec des définitions de document peu fiables sont signalés en rouge. Si Confirmer automatiquement le type de section après appariement est activé, le nom de la section ne sera pas mis en évidence en rouge si une définition de section liée à la catégorie sélectionnée a été appliquée avec succès. Dans ce cas, la catégorie sera confirmée lors de l’application même si l'association initiale était peu fiable.

En savoir plus sur Confirmer automatiquement le type de section après association

Si vous souhaitez faire en sorte manuellement que le programme perçoive l'association de la définition de document comme fiable, procédez à l'une des étapes suivantes :

  • Utilisez la commande Confirmer la Définition de document du menu contextuel de la page/du document.
  • Modifiez la page qui n'a pas atteint le seuil de confiance requis en matière d'association de la définition de document (par exemple, en modifiant le type de section, en la déplaçant dans un autre document, etc.)
  • Modifiez la définition de document de la page/du document.

Remarque :Une association cesse automatiquement d'être considérée comme peu fiable si le document ne comporte plus de sections à faible confiance après son traitement par un opérateur.

Le degré de confiance faible de l'association de la définition de document s'affiche dans la fenêtre d'erreur en tant qu'erreur d'assemblage. Les documents contenant des erreurs, parmi lesquelles des associations de la définition de document peu fiables, sont envoyés à l'étape où l'assemblage de documents est vérifié. Si un document ne présente pas d’autres erreurs que celles de manque de fiabilité de la classification, il est envoyé à l’étape de vérification.

Détection des erreurs dans le lot d'apprentissages du classificateur

Les erreurs de classification sont principalement dues à des catégories de référence mal attribuées ou à un manque d'exemples de page dans le lot d'apprentissages. Pour détecter ces genres d'erreurs, vous pouvez demander au programme de trouver les pages de type page mal classifiée. Pour ce faire, faites un clic droit sur une page mal classifiée, puis cliquez sur l'une des trois commandes suivantes dans le menu contextuel (ces commandes sont également accessibles à partir du menu Apprentissage de la classification en haut) :

  • Afficher des pages similaires recherche des pages similaires dans tout le lot, indépendamment de laréférence ou de la catégorie de résultat de la page sélectionnée.
  • Afficher les pages similaires de la catégorie de référence recherche des pages similaires ayant la même catégorie de référence que celle de la page sélectionnée.
  • Afficher les pages similaires de la catégorie de résultat recherche des pages similaires ayant la même catégorie de référence que la catégorie de résultat de la page sélectionnée.

Remarque :Le programme recherchera les pages similaires dans tous les documents, quel que soit leur état, qu'ils soient ou non marqués comme Pour apprentissage, Pour test ou Inutilisé.

Les pages similaires seront affichées par ordre décroissant, de la plus similaire à la moins similaire :

Exemple pratique

Supposez que vous repériez une page mal classifiée dans la matrice de confusion et que la catégorie de référence de cette page soit Pièce d'identité et sa catégorie de résultat Facture.

Ouvrez la page mal classifiée en cliquant sur sa cellule dans la matrice de confusion.

Faites un clic droit sur la page, puis cliquez sur Afficher les pages similaires de la catégorie de résultat dans le menu contextuel (cette commande est également accessible à partir du menu Apprentissage de la classification en haut). Cela affichera toutes les pages du lot du classificateur qui sont similaires à la pagePièce d'identité, mais ont Facture spécifié en tant que catégorie de référence. Les pages seront affichées par ordre décroissant, de la plus similaire à la moins similaire.

Vous allez désormais pouvoir identifier les pages dont les catégories de référence ont été mal attribuées, ce qui a entraîné la classification de la page Pièce d'identité en tant que Facture. Modifiez la catégorie de référence si nécessaire et procédez à un nouvel apprentissage du classificateur.

Si vous cliquez sur la commande Afficher les pages similaires de la catégorie de référence, vous pourrez vérifier si une page est unique. Par exemple, elle peut être utilisée pour vérifier si, dans le lot d'apprentissages, il y a des pages Pièce d'identité qui ont Pièce d'identité spécifié en tant que catégorie de référence. Si aucune page Pièce d'identité similaire n'est trouvée, ajoutez la page rebelle au lot d'apprentissages et procédez à un nouvel apprentissage du classificateur.

Si vous cliquez sur la commande Afficher des pages similaires, toutes les pages similaires s'afficheront indépendamment de leur référence ou de leur catégorie de résultat. Cela affichera toutes les pages du lot du classificateur qui sont similaires à la page Passeport, mais pour lesquelles des catégories de référence autres que Pièces d'identité ont été spécifiées. Modifiez la catégorie de référence si nécessaire et procédez à un nouvel apprentissage du classificateur.

15.03.2021 9:22:26


Please leave your feedback about this article