NLP-Modelltraining auf der Basis des Feedbacks von Überprüfungsoperatoren

Die Qualität der Datenextraktion kann durch zusätzliches Training der NLP-Modelle durch die Operatoren verbessert werden. Wenn das Programm bestimmte Felder nicht erkennt oder ein Feld mit einem anderen Feld verwechselt, kann der Überprüfungsoperator das richtige Feld angeben und das NLP-Modell neu trainieren. Das Programm wird dann das neu trainierte Modell für eine genauere Datenextraktion verwenden.

Hinweis. Für in Dokumentdefinitionen geladene NLP-Modelle ist kein zusätzliches Training verfügbar..

Es gibt zwei Möglichkeiten, das Training eines NLP-Modells während der Überprüfung zu initiieren. Folgende Aktionen sind möglich:

  • Hinzufügen einer Trainingsphase zur Überprüfungsphase. Das Training beginnt, wenn die für den Trainingsstapel festgelegten Bedingungen erfüllt sind. Weitere Informationen zum Einrichten von Workflowphasen finden Sie unter Workflow-Konfiguration.
  • Manuelles Senden der Dokumente an die Trainingsphase. Klicken Sie mit der rechten Maustaste in das Dokument im Arbeitsstapel und wählen Sie Lernen im Kontextmenü.

Im Allgemeinen läuft das Training wie folgt ab:

  • Wenn ein Training initiiert wird, erstellt ABBYY FlexiCapture automatisch einen generischen Trainingsstapel in der Liste der Trainingsstapel (falls diese noch keinen enthält). Alle Dokumente, die sich auf eine bestimmte Dokumentdefinition beziehen, werden in diesen Stapel kopiert, unabhängig von ihrer Variante.
  • Jedes Dokument wird entweder dem StatusFür Lernen oder dem Status Für Tests hinzugefügt.
  • Markierte Dokumente Für Lernen werden einem Training unterzogen. Als Ergebnis wird ein neues NLP-Modell erstellt.
  • Das neue Modell, das während des Trainings erstellt wurde, wird dann anhand von Dokumenten getestet, die markiert sind mitFür Tests.
  • Wenn die Gesamtleistung des neuen Modells nicht schlechter ist als die des bestehenden Modells, wird das bestehende Modell durch das neue Modell ersetzt. Andernfalls wird das neue Modell abgelehnt.

Bei der Verarbeitung von Dokumenten kann sich herausstellen, dass sich bei einigen Dokumenten die Feldpositionen erheblich unterscheiden, obwohl sie identische Reihen von Feldern enthalten. Um die Erkennungsqualität solcher Dokumente zu verbessern, erstellen Sie für jede Dokumentvariante separate Trainingsstapel.

 

Erstellen eines Trainingsstapels für die Feldextraktion für einen bestimmten Lieferanten oder eine bestimmte Variante

Um Dokumente zu trainieren, die von einem bestimmten Lieferanten stammen oder zu einer bestimmten Variante gehören, muss ein neuer Stapel angelegt werden. Gehen Sie folgendermaßen vor:

  1. Öffnen Sie auf der Projektkonfigurationsstation das Projekt mit dem NLP-Modell. Weitere Informationen zum NLP-Modell finden Sie unter Erstellen von NLP-Modellen.
  2. Navigieren Sie zu Trainingsstapel für Feldextrahierung, indem Sie Feldertraining > Open Field Extraction Training Batches auswählen. Alternativ können Sie entweder die Tastenkombination Strg + Alt + B verwenden oder Trainingsstapel für Feldextrahierung im Kontextmenü auswählen.
  3. Wählen Sie Datei > Neuer Stapel, um einen neuen Stapel zu erstellen. Alternativ können Sie die Tastenkombination Strg + N verwenden. Wählen Sie die entsprechende Dokumentdefinition und -variante und wählen Sie dann die Option NLP-Stapel im Kontextmenü.
  4. Fügen Sie Ihre Dokumente hinzu, erkennen Sie sie, bearbeiten Sie die Reihenfolge der Bereiche und starten Sie das Training durch Auswahl von Lernen im Kontextmenü. Alternativ können Sie entweder die Tastenkombination Strg + F7 verwenden oder klicken auf Stapel trainieren in der Symbolleiste.

The quality of a trained NLP model depends on the number of documents in the training batch and the quality of their markup. Please note the following:

  • All the fields described by the Document Definition should be marked up in the training documents.
  • It is recommended to have between 100 and 500 documents in each training batch. This number of documents will enable the program to select the best parameters for your NLP model without slowing down the training process.

Wenn das Operator-Feedback für das Training verwendet wird, werden sowohl dem Trainingsstapel als auch dem Variantenstapel neue Dokumente hinzugefügt.

  • Für eine Variante mit einem vorhandenen Trainingsstapel wird das für diesen bestimmten Stapel erstellte NLP-Modell verwendet.
  • Für alle anderen Varianten wird das für den generischen Schulungsstapel erstellte NLP-Modell verwendet.

Wenn ein Dokument, das mit einem bereits in einem Trainingsstapel vorhandenen Dokument identisch ist, aus derselben Quelle hinzugefügt wird, ersetzt das neue Dokument das ältere. Dies wird auch im Protokoll der Hintergrundaufgabe für den Trainingtask aufgezeichnet. Das Programm verwendet die Dokument- Registrierungsparameter, um zu entscheiden, ob ein Dokument eine Kopie eines bereits existierenden Dokuments ist oder nicht.

Nachdem Sie den Stapel erstellt haben, können Sie zusätzliche Optionen angeben. Dafür wählen Sie NLP-Stapeleinstellungen anzeigen....

Die folgenden Zusatzoptionen können im folgenden Dialogfeld festgelegt Trainingsstapeleinstellungen werden:

  • Maximale Anzahl Dokumente in Trainingsstapel
    Wenn die maximale Anzahl von Dokumenten erreicht ist, ersetzen alle neuen Dokumente, die einem Trainingsstapel hinzugefügt werden, die alten Dokumente.
  • Maximaler Anteil für ersetzte Dokumente
    Gibt den Prozentsatz alter Dokumente an, die während einer Trainingssitzung durch neue ersetzt werden können. Dokumente, die an die Trainingsphase gesendet wurden, aber nicht im Stapel enthalten waren, werden nicht für das Training des neuen NLP-Modells verwendet.
  • Training starten, wenn der Stapel mehr als __ neue Dokumente __ % neue Dokumente enthält
    Das Training beginnt, wenn mindestens einer der folgenden Punkte zutrifft: Die Anzahl der neuen Dokumente, die einem Trainingsstapel hinzugefügt werden, ist größer als der angegebene Wert; der Prozentsatz der neuen Dokumente im Verhältnis zur Gesamtzahl der Dokumente in einem Stapel ist gleich oder größer als der angegebene Wert. Andernfalls beginnt das Training nicht und im Protokoll des Hintergrundtaskprotokolls wird ein Eintrag hinzugefügt, der besagt, dass es nicht genügend neue Dokumente gibt, um mit dem Training zu beginnen.
  • Anteil der Dokumente, die für das Training verwendet werden
    Gibt den Prozentsatz der markierten Dokumente an, die mit Für Tests und  Für Lernenmarkiert sind. Wenn Sie z.B. den Prozentsatz der "Für Training"-Dokumente auf 70 % begrenzen, werden die restlichen 30 % als "Für Tests" gekennzeichnet.

Trainingsstatistik

Nach Abschluss des Trainings können die Statistiken für ein NLP-Modell exportiert werden. Dies umfasst Folgendes:

  • Informationen zu den Trainingsstapeleinstellungen.
  • Informationen sowohl über das neue als auch über das alte NLP-Modell.
  • Trainingszeit.
  • Die Version der NLP-Komponente, die zum Training des NLP-Modells verwendet wird.
  • Dokument- und Feldtrainingsstatistiken.
  • Informationen darüber, wie aktuell die exportierten Daten sind.
    Wenn der Parameter isActual false ist, wurde der Stapel nach dem Training und der Erstellung eines neuen NLP-Modells modifiziert: Dokumente können hinzugefügt oder entfernt worden sein, die Dokumentmarkierung könnte sich geändert haben usw. Für aktuelle Statistiken sollte das Training wieder gestartet werden.

Um das Protokoll für den Trainingsstapel zu exportieren, klicken Sie mit der rechten Maustaste auf den Stapel, klicken auf  Export Field Extraction Statistics... im Kontextmenü und wählen aus, wo Sie die CSV-Datei speichern möchten.  

14.01.2021 14:17:18


Please leave your feedback about this article