In welchen Fällen Sie Extraktionsskripte verwendet sollten

Extraktionsergebnisse können manchmal durch die Verwendung von Extraktionsskripten neben dem NLP-Modell verbessert werden. Extraktionsskripte können in den folgenden Fällen verwendet werden:

  • Bei der Extraktion von Einheiten aus einer Tabelle.
  • Die Anzahl der Beispieldokumente ist für das Trainieren Ihrer NLP-Modelle nicht ausreichend.
  • Wenn Sie mit der Qualität der Extraktion einiger Felder nicht zufrieden sind.

Extraktionsskripte ermöglichen Ihnen

  • Das Identifizieren von Textbereichen, die
    • mit bestimmten regulären Ausdrücken übereinstimmen
    • bestimmte Wörter oder Phrasen aus den Benutzerwörterbüchern enthalten, die in einer gebeugten Form im Text vorkommen
    • alle integrierten NER-Objekte:
  • Personen (NerPerson)
  • Organisationen (NerOrg)
  • Standorte (NerGeo)
  • Adressen (NerAddress)
  • Geldbeträge (NerMoney)
  • Daten (NerDate)
    Hinweis. Die Objekte NerMoney und NerDate werden nur in Extraktionsskripten verwendet.
  • Führen Sie Abfragen für Text und Textbereiche aus, in denen Suchwörter und Suchphrasen in beliebiger gebeugter Form vorkommen können.
  • Speichern Sie alle identifizierten Textbereiche in Dokumentfeldern.
  • Extrahieren Sie Adressen und die folgenden Adressbestandteile aus Dokumenten:
    • Postleitzahl (NerZipCode)
    • Land (NerCountry)
    • Bundesland (NerState)
    • Stadt (NerCity)
    • Straße (NerStreet)

Gehen Sie folgendermaßen vor, um ein Extraktionsskript zu erstellen oder zu verwendende Benutzerwörterbücher auszuwählen:

  1. Öffnen Sie den Dokumentdefinitionseditor.
  2. Wählen Sie einen Dokumentbereich, klicken Sie mit der rechten Maustaste darauf und klicken Sie auf Eigenschaften… im Kontextmenü.
  3. Klicken Sie auf die Registerkarte NLP.
  4. Klicken Sie unter Extraktionsskripte auf Erstellen....
  5. Klicken Sie im Dialogfeld Extraktionsskript auf
  • die Schaltfläche Laden…, um ein Benutzerwörterbuch zu laden, oder
  • klicken Sie auf die Schaltfläche Bearbeiten..., um den Skripteditor zu öffnen.

Hinweis. Die Benutzerwörterbücher sollten in UTF-8 mit BOM oder ANSI verschlüsselt sein.

Extrahieren von Adresskomponenten aus einem Dokument

Gehen Sie für das Extrahieren von Adresskomponenten folgendermaßen vor:

  1. Geben Sie den Bereich des Dokuments an, der die Adresse enthält.

    Wir empfehlen Ihnen, den Suchbereich mit einem FlexiLayout-Feld zu begrenzen und diesen Bereich dann als Quelle für ein Extraktionsskript zu verwenden. Weitere Informationen finden Sie unter Suchbeschränkungen.

    Eine Adresse darf nur eine Instanz von jeder der folgenden Komponenten enthalten: Postleitzahl, Land, Bundesland, Stadt und Straße. Ein Extraktionsskript kann jedoch mehrere Instanzen einer Komponente zurückgeben. Je genauer Sie den Suchbereich für eine Adresse definieren, desto weniger Instanzen werden zurückgegeben.
  2. Wenden Sie das entsprechende Extraktionsskript an.
    Sie können im gesamten Feld oder im Teilbereich des Feldes suchen .

Wenn Sie die Methoden ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) und ParseAddressInSpan( resultCollectionNamePrefix : string, span : IInterval ) für die Verarbeitung einer Adresse werden, erhält jedes Wort in den erkannten Komponenten während der Indexierung die folgenden Attribute, die dann in XML-Abfragen verwendet werden können:

  1. Der Name der Sammlung im Format [resultCollectionNamePrefix]_[NerTypeOfComponent].
  2. Das Präfix resultCollectionNamePrefix. 
  3. Der Typ des NER-Objekts.

Siehe unten für eine Beispielabfrage einer XML-Adressextraktion.

Hinweis. Derzeit können Sie nur Komponenten von deutschen und US-amerikanischen Adressen extrahieren.

14.01.2021 14:17:18


Please leave your feedback about this article