Analysieren der Klassifizierungsergebnisse
Sobald das Training abgeschlossen ist, werden die statistischen Daten aufgezeichnet. Indem Sie die Statistiken analysieren, können Sie besser verstehen, wie Sie die Qualität der Klassifizierer verbessern können. Sie können die Klassifizierungsstatistiken folgendermaßen öffnen:
- Wählen Sie Klassifizierungstraining → Statistiken anzeigenim Hauptmenü;
- Oder klicken Sie auf die Schaltfläche Statistik in der Symbolleiste.
Im neuen Fenster sind die folgenden Informationen verfügbar:
- F-Maß, Aufruf und Genauigkeit – je höher diese Werte, desto präziser die Klassifizierungsergebnisse. (Weitere Informationen zur Berechnung eines F-Maßes finden Sie im Glossar, Klassifizierung F-Maß);
- Anzahl der Seiten mit Referenzklassen;
- Seite mit Klassifizierungsergebnissen:
- Richtig positiv – die Anzahl der Seiten, denen eine Klasse zugewiesen wurde, die der Referenzklasse entspricht.
- Falsch positiv – die Anzahl der Seiten, denen eine Klasse zugewiesen wurde, die nicht der Referenzklasse entspricht.
- Falsch negativ – die Anzahl der Seiten mit einer Referenzklasse, denen keine Klasse zugewiesen wurde.
- Richtig negativ – die Anzahl der Seiten mit keiner Referenzklasse, denen keine Klasse zugewiesen wurde.
Verwenden Sie die Dropdown-Liste oben links imKlassifizierungsstatistiken Fenster, um auszuwählen, ob Sie die Statistiken für Für Tests Seiten, für Für LernenSeiten oder für beide anzeigen möchten.
Detaillierte Informationen zum Verhältnis von Referenzklassen zu Ergebnisklassen sowie Informationen zu den Ergebnissen des Klassifizierertrainings werden auf drei verschiedene Arten dargestellt:
1. Verwechslungsmatrix. Die Verwechslungsmatrix ist eine visuelle Darstellung der Dokumente, die von einem Klassifizierer am häufigsten verwechselt werden. Die Werte in der Matrixzelle repräsentieren die Verhältnisse der Referenzklassen zu den Ergebnisklassen. Grüne Zellen zeigen die Anzahl der Seiten, denen eine Klasse korrekt zugewiesen wurde. Rote Zellen zeigen die Anzahl der Seiten mit verwechselten Klassen — Klassen, die vom Klassifiziere fälschlicherweise Seiten mit einer Referenzklasse zugewiesen wurden.
Tools für das Arbeiten mit der Verwechslungsmatrix
Konfusionsmatrix anzeigen
2.Statistik nach Klasse. Eine Tabelle mit Statistiken für Seiten, für die die Ergebnisklasse nicht mit der Referenzklasse übereinstimmt. Anhand dieser kann der Benutzer die Klassen identifizieren, die für einen vorgegebenen Klassifizierer die meisten Fehler verursachen. Sie können nach der Anzahl der verwechselten Seiten sowie nach dem Verhältnis der verwechselten Seiten zur Gesamtzahl der Seiten dieser Referenzklasse sortieren.
3. Verwechselte Klassen. Diese Registerkarte enthält eine Liste aller Klassen, die von einem Klassifizierer falsch zugewiesen wurden. Mithilfe dieser Daten können Sie bestimmen, welche Klassen am häufigsten miteinander verwechselt werden.
Indem Sie eine Matrixzelle oder Zeile einer Datentabelle doppelklicken, werden die Seiten für die ausgewählten Klassen geöffnet. Die Suchzeile für Referenz- und Ergebnisklasse ist in allen Registerkarten verfügbar. Eine Datentabelle kann außerdem sortiert und so herausgefunden werden, welche Klassen die meisten Probleme bereiten.
Zu Ihrem Komfort können Sie die Statistiken in eine Textdatei exportieren, indem Sie Statistik exportieren... im Dialogfeld Klassifizierungsstatistiken klicken. Geben Sie in dem sich öffnenden Dialogfeld einen Namen und einen Speicherort für die exportierte Datei an und wählen Sie, ob Sie sie als CSV- oder TXT-Datei speichern möchten. Sie können auch wählen, welche Statistiken exportiert werden sollen (wählen Sie eine oder mehrere Optionen):
- Statistikzusammenfassung für die wichtigsten Klassifikationsparameter: F-Maß, Aufruf,Genauigkeit und Klassifikationsergebnisse, aufgeschlüsselt nach Seiten.
- Wichtigste Klassifikationsparameter, aufgeschlüsselt nach Klassen.
- Verwechselte Klassen – die Anzahl und der Prozentsatz der Seiten für jede verwechselte Klasse.
- Alle Klassen – die Anzahl und den Prozentsatz der Seiten für jede Klasse.
Statistiken werden nur für die Seiten mit dem im Dialogfeld Klassifizierungsstatistiken ausgewählten Dokumentstatus exportiert.
Wichtig! Sie müssen das Klassifizierertraining erneut initialisieren, wenn eine der folgenden Aktionen ausgeführt wurde:
- Dokumente mit zugewiesener Für Lernen wurden hinzugefügt/entfernt;
- Der Status Für Lernen wurde einem Dokument hinzugefügt oder von diesem entfernt;
- Klassen wurden hinzugefügt, gelöscht oder zusammengeführt;
- Einem Dokument wurde eine andere Referenzklasse zugewiesen;
- Ein Klassifizierungsprofil und/oder die Priorität für Aufruf/Genauigkeit wurde(n) geändert.
12.04.2024 18:16:01