Glossar

D

Dokument

Eine Kombination aus mehreren Seitenbildern und den Daten, die aus den Seiten extrahiert wurden.

Dokumentdefinition

Mit einer Dokumentdefinition werden die Verfahren für das Erkennen und Verarbeiten eines bestimmten Dokumenttyps definiert. Sie enthält folgende Angaben:

  • Die Dokumentstruktur, d. h. eine Beschreibung der zulässigen Reihenfolge der Seiten für Dokumente dieses Typs, die definiert, wie Dokumente zusammengestellt werden sollen
  • Definitionen von Dokumentbereichen
  • Eine Liste von Regeln, denen die Felddaten entsprechen müssen
  • Die Position von Feldern und ihrer Signaturen im Datenfenster (Datenformularansicht)
  • Einstellungen für den Dokumentenexport
  • Einstellungen für die Dokumentenverarbeitung

Dokumententyp

Eine Reihe von Dokumenten, die mehrere Merkmale gemeinsam haben und eine bestimmte Rolle in Geschäftsprozessen spielen.
Einige Beispiele für Dokumenttypen sind Rechnungen, Verträge und Reisepässe.

E

Einheit

Ein Feld oder eine Gruppe von Feldern, die Informationen enthalten, die mithilfe der NLP-Technologie extrahiert werden müssen. Beispiele für Entitäten sind: Personen, Unternehmen, Orte, Beträge und Daten.

F

Feld

Ein Dokumentelement, das zum Extrahieren von Daten vorgesehen ist. Felder können einfach (ohne interne Struktur) oder zusammengesetzt sein. Ein zusammengesetztes Feld ist z. B. ein Tabellenfeld, das sowohl als einzelne Zelle als auch als untergeordnetes Feld der Tabelle angesehen werden kann.

N

NER (Erkennung von Eigennamen)

Ein Task zur Informationsextrahierung, der versucht, Erwähnungen von Eigennamen in nicht strukturiertem Text zu lokalisieren.  

NLP (Natürliche Sprachverarbeitung)

Ein Teilgebiet der künstlichen Intelligenz und mathematischen Linguistik, das sich mit Computeranalysen und der Synthese natürlicher Sprachen befasst. Ein Anwendungsgebiet der NLP ist das Extrahieren von Informationen. Andere Anwendungen der NLP umfassen die maschinelle Übersetzung, Chatbots, Dokumentklassifizierung und Stimmungsanalyse.

NPL-Modell

Ein Mechanismus, der festlegt, welche Einheiten und Segmente aus Texten extrahiert werden sollen und auf welche Weise. Der Themenbereich und der.

S

Segment

Ein aus einem oder mehreren Absätzen bestehendes Textfragment, das zu extrahierende Daten enthält. Ein Segment kann auch ein Feld sein, das extrahiert werden muss (z. B. Bedingungen für die Kündigung einer Vereinbarung).

Segmentierung

Der Prozess der Identifizierung von Segmenten. Die Segmentierung geht der Informationsextrahierung voraus und ist bei großen Dokumenten hilfreich, da sie die Suche nach Einheiten auf bestimmte Textfragmente beschränkt.

12.04.2024 18:16:01

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.