German (Deutsch)

In welchen Fällen Sie Extraktionsskripte verwendet sollten

Extraktionsergebnisse können manchmal durch die Verwendung von Extraktionsskripten neben dem NLP-Modell verbessert werden. Extraktionsskripte können in den folgenden Fällen verwendet werden:

Bei der Extraktion von Einheiten aus einer Tabelle.
Die Anzahl der Beispieldokumente ist für das Trainieren Ihrer NLP-Modelle nicht ausreichend.
Wenn Sie mit der Qualität der Extraktion einiger Felder nicht zufrieden sind.

Extraktionsskripte ermöglichen Ihnen

Das Identifizieren von Textbereichen, die

mit bestimmten regulären Ausdrücken übereinstimmen
bestimmte Wörter oder Phrasen aus den Benutzerwörterbüchern enthalten, die in einer gebeugten Form im Text vorkommen
alle integrierten NER-Objekte:

Personen (NerPerson)
Organisationen (NerOrg)
Standorte (NerGeo)
Adressen (NerAddress)
Geldbeträge (NerMoney)
Daten (NerDate)

Dauer (NerDuration, nur für russische und englische Texte verfügbar)
Kontonummern (NERAccountNumber, nur für russische Texte verfügbar)
Hinweis. Die Objekte NerMoney, NerDate, NerDuration und NERAccountNumber werden nur in Extraktionsskripten verwendet.

Führen Sie Abfragen für Text und Textbereiche aus, in denen Suchwörter und Suchphrasen in beliebiger gebeugter Form vorkommen können.
Speichern Sie alle identifizierten Textbereiche in Dokumentfeldern.
Extrahieren Sie Adressen und die folgenden Adressbestandteile aus Dokumenten:

Postleitzahl (NerZipCode)
Land (NerCountry)
Bundesland (NerState)
Stadt (NerCity)
Straße (NerStreet)

Gehen Sie folgendermaßen vor, um ein Extraktionsskript zu erstellen oder zu verwendende Benutzerwörterbücher auszuwählen:

Öffnen Sie den Dokumentdefinitionseditor.
Wählen Sie einen Dokumentbereich, klicken Sie mit der rechten Maustaste darauf und klicken Sie auf Eigenschaften… im Kontextmenü.
Klicken Sie auf die Registerkarte NLP.
Klicken Sie unter Extraktionsskripte auf Erstellen....
Klicken Sie im Dialogfeld Extraktionsskript auf

die Schaltfläche Laden…, um ein Benutzerwörterbuch zu laden, oder
klicken Sie auf die Schaltfläche Bearbeiten..., um den Skripteditor zu öffnen.

Hinweis. Die Benutzerwörterbücher sollten in UTF-8 mit BOM oder ANSI verschlüsselt sein.

Extrahieren von Adresskomponenten aus einem Dokument

Gehen Sie für das Extrahieren von Adresskomponenten folgendermaßen vor:

Geben Sie den Bereich des Dokuments an, der die Adresse enthält.

Wir empfehlen Ihnen, den Suchbereich mit einem FlexiLayout-Feld zu begrenzen und diesen Bereich dann als Quelle für ein Extraktionsskript zu verwenden. Weitere Informationen finden Sie unter Suchbeschränkungen.

Eine Adresse darf nur eine Instanz von jeder der folgenden Komponenten enthalten: Postleitzahl, Land, Bundesland, Stadt und Straße. Ein Extraktionsskript kann jedoch mehrere Instanzen einer Komponente zurückgeben. Je genauer Sie den Suchbereich für eine Adresse definieren, desto weniger Instanzen werden zurückgegeben.
Wenden Sie das entsprechende Extraktionsskript an.
Sie können im gesamten Feld oder im Teilbereich des Feldes suchen.

Wenn Sie die Methoden ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) und ParseAddressInSpan( resultCollectionNamePrefix : string, span : IInterval ) für die Verarbeitung einer Adresse werden, erhält jedes Wort in den erkannten Komponenten während der Indexierung die folgenden Attribute, die dann in XML-Abfragen verwendet werden können:

Der Name der Sammlung im Format [resultCollectionNamePrefix]_[NerTypeOfComponent].
Das Präfix resultCollectionNamePrefix.
Der Typ des NER-Objekts.

Siehe unten für eine Beispielabfrage einer XML-Adressextraktion.

Hinweis. Derzeit können Sie nur Komponenten von deutschen und US-amerikanischen Adressen extrahieren.

4/12/2024 6:16:01 PM

Please leave your feedback about this article

Name

E-mail

Comment

Your use of this site is conditioned on Your continued compliance with the Terms of Use.

Terms of Use

Disclaimer of Warranty

Limitation of Liability

Transmission and Submission of Information

Downloads

Use of Content

Trademarks

Links to Third-Party Sites

Foreign Legislation

Subscription Terms

Partner Subscription Terms

In welchen Fällen Sie Extraktionsskripte verwendet sollten

Extrahieren von Adresskomponenten aus einem Dokument

Please leave your feedback about this article