Normalisierung von Werten in Datensätzen

Dieser Artikel beschreibt die unterschiedlichen Arten der Normalisierung, die beim Hinzufügen von Spalten zu einer externen Datenbank für einen Datensatz in einer ABBYY FlexiCapture for Invoices Dokumentdefinition verwendet werden können sowie die Einstellungen dieser Normalisierungsarten.

Mit der Normalisierung kann das Format von Werten geändert werden, die unterschiedlich geschrieben sind, aber im Wesentlichen dasselbe bedeuten. Die Normalisierung erzwingt eine konsistente Formatierung der Werte, sodass sie verglichen werden können. Adresse und Name eines Unternehmens sind beispielsweise auf verschiedene Art und Weise geschrieben. Da sich diese Werte auf das gleiche Unternehmen und die gleiche Adresse beziehen, müssen sie normalisiert werden, damit das Programm einen korrekten Vergleich anstellen kann.

Die Art der Normalisierung kann für jede Spalte eines Datensatzes festgelegt werden, wenn diese Spalten den Spalten einer externen Datenbank zugeordnet werden.

Die Normalisierung wird nur auf Werte angewendet, die im Datensatz gespeichert sind (die Option Daten zwischenspeichern muss in den Eigenschaften des Datensatzes aktiviert werden). Die Werte in der externen Datenbank werden nicht geändert.

Wie funktioniert die Normalisierung während der Datenextrahierung in ABBYY FlexiCapture for Invoices?

1. Text

Mit dieser Normalisierungsart können Zeichenfolgen verglichen werden, wie beispielsweise Firmennamen und -adressen.

  1. Leerraum (das beinhaltet Zeilenvorschub und Tabstoppzeichen) und Trennungssymbole werden durch reguläre Leerzeichen ersetzt.
  2. Als Trennzeichen verwendete Punkte (zwischen Wörter platzierte Punkte) werden durch Leerzeichen ersetzt und Punkte in Abkürzungen werden entfernt.
  3. Normalisierung von Verbindungssymbolen (&, +, -, /, ~):
    • Wortreihen, die mit einem einbuchstabigen Wort beginnen und durch das gleiche Verbindungssymbol getrennt werden, werden zu einem Wort zusammengefasst, wie z. B. R & D wird zu R&D;
    • In allen anderen Fällen werden die Verbindungssymbole durch Leerzeichen ersetzt, wie z. B. Procter&Gamble wird zu  Procter Gamble.
  4. Doppelte Leerzeichen werden entfernt.
  5. Für die Aufteilung von Wörtern wird eine vorab festgelegte Liste verwendet. CoKG beispielsweise wird aufgeteilt in Co KG.
  6. Mithilfe von Leerzeichen im erkannten Text wird dieser in separate Wörter aufgeteilt.
  7. Für das Ersetzen von Suffixen in jedem Wort wird eine vorab festgelegte Liste verwendet. Beispielsweise kann der Suffix strasse durch den Suffix str ersetzt werden.
  8. Automatisches Ersetzen von Zeichenfolgen in Wörtern entsprechend einer vorab festgelegten Liste. Beispielsweise kann das Wort Limited durch die Abkürzung Ltd ersetzt werden.

Die Normalisierungsparameter sind in der Datei Normalization.xml festgelegt, die im Projektordner gespeichert wird.

Sonstiges...

Hinweis. In zukünftigen Versionen des Programms werden u. U. erhebliche Änderungen am Normalisierungsalgorithmus vorgenommen.

2. Alphanumerischer Code

Diese Normalisierungsart ist beim Vergleich alphanumerischer Codes sehr nützlich, wie z. B. Steuernummer-IDs, Bankkonten und Buchungsindexe.

Alle Symbole mit Ausnahme von Zahlen und Buchstaben werden aus den Werten entfernt, so lassen sich Werte vergleichen, während Leerzeichen, Bindestriche, Schrägstriche und andere beliebige Zeichen ignoriert werden, die in diesen Werten enthalten sein können.

Bei Anwendung der Normalisierung steht die Option Normalisierten Wert speichern zur Verfügung, sobald die Spalte Datensatz einer Spalte in einer externen Datenbank zugeordnet wird.

  • Wird diese Option aktiviert, werden die normalisierten Werte im Datensatz gespeichert.
  • Wird diese Option deaktiviert, werden die Originalwerte aus der externen Datenbank in den Datensatz kopiert.

Diese Option wirkt sich nicht auf die Datenextrahierung oder automatisierte Überprüfungen aus, legt aber fest, welcher Wert einem Benutzer angezeigt wird, sobald dieser nach einem Eintrag im Wörterbuch sucht.

14.01.2021 14:17:18


Please leave your feedback about this article