Analyse des résultats de classification
À la fin de l'apprentissage, les données statistiques sont enregistrées. L'analyse des statistiques peut vous aider à mieux comprendre comment vous pouvez améliorer la qualité du classificateur. Vous pouvez ouvrir la boîte de dialogue des statistiques de classification soit en :
- sélectionnant Apprentissage de la classification → Afficher les statistiques dans le menu principal ;
- soit en cliquant sur le bouton Statistiques de la barre d'outils.
Les informations suivantes peuvent être consultées dans la nouvelle fenêtre :
- Mesure F, Rappel et Précision : plus ces valeurs sont élevées, plus les résultats de la classification sont précis. (Pour plus de détails sur le calcul de la mesure F, référez-vous à Glossaire, Mesure F de la classification) ;
- le nombre de pages avec les catégories de référence ;
- les résultats de la classification de la page :
- Vrai positif, en d'autres termes, le nombre de pages auxquelles une catégorie correspondant à la catégorie de référence a été attribuée.
- Faux positif, en d'autres termes, le nombre de pages auxquelles une catégorie ne correspondant pas à la catégorie de référence a été attribuée.
- Faux négatif, en d'autres termes, le nombre de pages avec une catégorie de référence auxquelles aucune catégorie n'a été attribuée.
- Vrai négatif, en d'autres termes, le nombre de pages sans aucune catégorie de référence auxquelles aucune catégorie n'a été attribuée.
À l'aide de la liste déroulante dans le coin supérieur gauche de la fenêtre Statistiques de classification, choisissez si vous souhaitez afficher les statistiques pour les pages Pour test, pour les pages Pour apprentissage ou pour les deux.
Les informations détaillées sur le ratio entre les catégories de référence et les catégories de résultats, ainsi que les informations sur les résultats de l'apprentissage du classificateur, sont présentées sous trois formes différentes :
1. Matrice de confusion. La matrice de confusion est une représentation visuelle des documents le plus souvent confondus par un classificateur. Les valeurs figurant dans les cellules de la matrice représentent les ratios entre les catégories de référence et les catégories de résultats. Les cellules vertes indiquent le nombre de pages auxquelles une catégorie a été correctement attribuée. Les cellules rouges indiquent le nombre de pages avec des catégories confondues, en d'autres termes, des catégories que le classificateur a attribuées de manière incorrecte à des pages ayant une catégorie de référence.
Outils pour travailler avec la matrice de confusion
Afficher la matrice de confusion
2. Statistiques par catégorie. Un tableau dans lequel figurent les statistiques relatives aux pages pour lesquelles la catégorie de résultat ne correspond pas à la catégorie de référence. Permet à l'utilisateur d'identifier les catégories qui génèrent le plus d'erreurs au niveau d'un classificateur donné. Vous pouvez trier par nombre de pages confondues, ainsi que par le ratio entre le nombre de pages confondues et le nombre total de pages de cette catégorie de référence.
3. Catégories de confusion. Cet onglet contient une liste de toutes les catégories qu'un classificateur a attribuées de manière erronée. À l'aide de ces données, vous pouvez déterminer quelles sont les catégories le plus souvent confondues les unes avec les autres.
Pour ouvrir les pages des catégories sélectionnées, double-cliquez sur une cellule de la matrice ou sur une ligne du tableau de données. La ligne de recherche des catégories de référence se trouve dans tous les onglets. Vous pouvez également trier n'importe quelle tableau de données pour savoir quelles sont les catégories qui posent le plus de problèmes.
À votre convenance, vous pouvez exporter les statistiques dans un fichier texte en cliquant sur Exporter les statistiques... dans la boîte de dialogue Statistiques de classification. Dans la boîte de dialogue qui s'affiche, spécifiez un nom et un emplacement pour le fichier exporté et choisissez si vous souhaitez l'enregistrer en tant que fichier CSV ou TXT. Vous pouvez également choisir les statistiques à exporter (sélectionnez une ou plusieurs options) :
- les statistiques récapitulatives des principaux paramètres de la classification : les résultats de mesure F, rappel, précision et classification ventilés par page.
- principaux paramètres de la classification ventilés par catégorie.
- catégories de confusion : le nombre et le pourcentage de pages pour chaque catégorie de confusion.
- toutes les catégories : le nombre et le pourcentage de pages pour chaque catégorie.
Les statistiques seront exportées seulement pour les pages pour lesquelles l'état du document est sélectionné dans la boîte de dialogue Statistiques de classification.
Important !Vous devez réinitialiser l'apprentissage du classificateur si l'une des actions suivantes a été effectuée :
- ajout/suppression de documents ayant la Pour apprentissage attribuée ;
- attribution du statut Pour apprentissage a un document ou sa suppression de celui-ci ;
- ajout, suppression ou fusion des catégories ;
- attribution d'une catégorie de référence différente à un document ;
- modification d'un profil de classification et/ou de la priorité de précision/rappel.
12.04.2024 18:16:03