Verarbeiten nicht strukturierter Dokumente mit NLP
Die Natürliche Sprachverarbeitung (NLP) ist ein Unterfeld künstlicher Intelligenz und mathematischer Linguistik. NLP befasst sich mit Computeranalyse und Synthese von natürlichen Sprachen. Eine mögliche praktische Anwendung von NLP ist die Extraktion aussagekräftiger Daten aus Text.
Wie ein Dokument verarbeitet wird, hängt von seiner Struktur ab. Für unsere Zwecke können wir drei Arten von Dokumenten unterscheiden: strukturierte, teilweise strukturierte und nicht strukturierte Dokumente.
- Strukturierte Dokumente enthalten eine Reihe klar definierter Datenfelder, deren Design, Anzahl und Platzierung sich nicht von einem Dokument zum anderen ändern. Beispiele für strukturierte Dokumente sind Formulare, Fragebögen und Anträge.
- Teilweise strukturierte Dokumente enthalten eine Reihe von Datenfeldern, deren Design, Anzahl und Platzierung sich von einem Dokument zum anderen wesentlich unterscheiden kann. Sie werden manchmal auch als "flexible Dokumente" bezeichnet. Ein Beispiel für teilweise strukturierte Dokumente sind Rechnungen, bei denen die Anzahl der Einträge und Formatierungen häufig vom ausstellenden Unternehmen abhängt.
- Nicht strukturierte Dokumente enthalten Informationen, die in keiner Weise strukturiert sind. Sie enthalten außerdem keine expliziten Datenfelder. Beispiele für nicht strukturierte Dokumente sind Verträge, Briefe und Bestellungen.
Weitere Informationen zu den Dokumenttypen finden Sie unter Unterstützte Dokumenttypen in ABBYY FlexiCapture.
Für die Verarbeitung nicht strukturierter Dokumente sollte die NLP-Technologie verwendet werden. Mit NLP können beispielsweise die folgenden Arten von Daten aus einem Vertrag extrahiert werden: Referenznummern, Namen der Parteien, wichtige Daten (Unterzeichnungsdatum, Datum des Inkrafttretens, Laufzeit und Kündigungsdatum), Vertragspreis, Gebühren, Zahlungsbedingungen und so weiter.
Um Informationen aus den Tabellen zu extrahieren, strukturierte und teilweise strukturierte Dokumente, sollten andere Methoden verwendet werden (wie z. B. FlexiLayouts).
Extrahieren von Informationen aus Texten
Die Softwareprodukte von ABBYY verwenden NLP-Modelle für Extrahieren von Informationen aus nicht strukturierten Texten. Ein NLP-Modell teilt dem Programm mit, welche Einheiten aus einem Dokument extrahiert werden sollen. Wenn Sie ein NLP-Modell an Beispieldokumenten trainieren, werden der Themenbereich Ihrer Texte und der entsprechende Extraktionsalgorithmus festgelegt, damit die benötigten Informationen effizienter extrahiert werden können. Der zum Erstellen eines NLP-Modells erforderliche Aufwand hängt von der Vielfalt Ihrer Dokumente, vom Kontext, der dem Programm zur Verfügung steht, und der Komplexität und Menge der Informationen ab, die Sie extrahieren müssen.
Das Extrahieren von Daten aus nicht strukturiertem Text erfordert viel Rechenleistung. Die Analyse umfangreicher Texte erfordert mehr Zeit.
Die erforderlichen Informationen befinden sich jedoch häufig auf einer bestimmten Seite oder in einem bestimmten Absatz eines sehr großen Textes. Der Prozess, solche nützlichen Textteile aufzufinden, wird Segmentierung genannt. Dieser Prozess erfordert wesentlich weniger Zeit und Rechenressourcen, als das Extrahieren von Einheiten, daher sollten Sie manchmal ein Dokument segmentieren, bevor Sie die Informationen daraus extrahieren. Weitere Informationen zur Identifizierung nützlicher Segmente finden Sie unter Erstellen eines NLP-Segmentierungsmodells.
Um mit NLP nicht strukturierte Dokumente zu verarbeiten, gehen Sie folgendermaßen vor:
- Installieren Sie das NLP-Modul.
- Erstellen Sie eine Dokumentdefinition.
- Erstellen und trainieren Sie ein NLP-Modell.
- Alternativ laden Sie ein vorhandenes NLP-Modell in Ihre Dokumentdefinition.
12.04.2024 18:16:01