IFieldExtractor

Zweck

Identifiziert Felder im Text eines Dokuments.

Hinweis. Kann nur in einem Extraktionsskript geändert werden.

Methoden

Name Beschreibung
ExtractRegularExpression( regularExpression : string, resultCollectionName : string )

Gibt einen regulären Ausdruck zum Identifizieren von Textbereichen an.


Der Parameter resultCollectionName legt einen Namen für die resultierende Sammlung von Objekten fest. Der Name der Sammlung kann in XML-Abfragen verwendet werden, die für Dokumente ausgeführt werden. Sie können auch über den Namen auf die resultierende Sammlung zugreifen.

ExtractNerObjects()

Weist den Feldidentifizierungsmechanismus an, NER-Einheiten im Text eines Dokuments zu identifizieren. Sobald die Objekte identifiziert sind, stehen dem Feldidentifizierungsmechanismus Sammlungen mit den folgenden vordefinierten Namen zur Verfügung: NerPerson, NerOrg, NerGeo, NerAddress, NerMoney und NerDate.

Hinweis. Die Objekte NerMoney und NerDate werden nur in Extraktionsskripten verwendet und sind in ABBYY FlexiLayout Studio nicht verfügbar.

ExtractWordsFromUserDictionary( userDictionaryName : string, languageName : string )

Weist den Feldidentifizierungsmechanismus an, Wörter aus einem Benutzerwörterbuch im Text eines Dokuments zu identifizieren. Wörter können im Text in jeder beliebigen gebeugten Form vorkommen. Ein Benutzerwörterbuch kann auf der Registerkarte Eigenschaften der Skriptregel ausgewählt werden. Auf das Wörterbuch wird über seinen Namen zugegriffen.


Der Parameter languageName gibt die Sprache an, in der die gebeugten Formen der Wörter im Benutzerwörterbuch generiert werden sollen.

ParseAddress() Analysiert den Text eines Felds oder Bereichs in Adresskomponenten.
ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) Analysiert das Textfragment zwischen angegebenen Start- und Endpositionen in einem Feld oder Bereich in Adresskomponenten.
ParseAddressInSpan(resultCollectionNamePrefix : string, span : IInterval ) Analysiert das Textfragment innerhalb eines bestimmten Intervalls in einem Feld oder Bereich in Adresskomponenten.
RunQuery( xmlQuery : string, queryName : string ) : IExtractedObjects

Führt eine XML-Abfrage für den Text eines Dokuments und die identifizierten Textbereiche aus. Gibt eine Sammlung von Ergebnissen als Array von Textbereichen zurück, die die identifizierten resultierenden Zeichenfolgen enthalten.

Der Parameter queryName gibt einen Namen für die Abfrage an, mit dem die resultierende Sammlung aus dem Feldidentifizierungsmechanismus abgerufen werden kann.

RunQueryAndSaveToField( xmlQuery : string, queryName : string, fieldName : string ) Führt eine XML-Abfrage für den Text eines Dokuments und die identifizierten Textbereiche aus und speichert die Ergebnisse in einem Dokumentfeld.
SaveSpanToField( span : IInterval, fieldName  : string ) Speichert das Textfragment, das der für eine Teilzeichenfolge angegebenen Spanne entspricht, in einem Dokumentfeld.
SaveTextToField( startPos : int, endPos : int, fieldName : string ) Speichert das Textfragment, das den für eine Teilzeichenfolge angegebenen Start- und Endpositionen entspricht, in einem Dokumentfeld.
ExtractedObjects( collectionName : string,  [optional] objectTypeName : VARIANT) : IExtractedObjects

Ermöglicht den Zugriff auf eine Sammlung identifizierter Objekte mit dem Namen der Sammlung.

Führen Sie für Sammlungen von NER-Objekten, die als Adresskomponenten identifiziert wurden, einen der folgenden Schritte aus:

  • Verwenden Sie für collectionName den Namen, der als resultCollectionNamePrefix an die Methoden ParseAddress... weitergegeben wurde. Legen Sie zusätzlich objectTypeName als Namen des Typs der Auflistung fest (z. B. "NerStreet" oder "NerCity"), oder
  • Geben Sie collectionName als [resultCollectionNamePrefix ]_[ objectTypeName] an, ohne objectTypeName als optionales Argument anzugeben.
QueryResults( queryName : string ) : IExtractedObjects Ermöglicht den Zugriff auf das Ergebnis einer XML-Abfrage über den Namen der Abfrage.

Eigenschaften

Name Typ Berechtigungen Wert
SourceText() Zeichenfolge Lesen Der Text des Dokuments oder Feldes, auf das der Feldidentifizierungsmechanismus angewendet wird.

SourceNode()

IField Lesen Das Feld oder der Bereich, auf den der Feldidentifizierungsmechanismus angewendet wird.
SourceDocument() IDocument Lesen Das Dokument, das SourceNode enthält.

15.03.2021 9:22:23


Please leave your feedback about this article