Normalisation des valeurs des jeux de données
Cet article décrit les différents types de normalisation pouvant être utilisés lorsque vous ajoutez des colonnes d'une base de données externe à un Jeu de données de définition de document. Il décrit aussi les paramètres de ces types de normalisation.
La normalisation peut être employée pour changer le format des valeurs qui sont écrites différemment, mais signifient globalement la même chose. La normalisation applique un formatage de valeurs cohérent afin qu'elles puissent être comparées. Il est par exemple possible que le nom et l'adresse d'une entreprise soient écrits de diverses manières. étant donné que ces valeurs font référence à la même entreprise et à la même adresse, elles doivent être normalisées pour permettre au programme de les comparer correctement.
Le type de normalisation peut être spécifié pour chaque colonne de Jeu de données lorsque vous les associez à celles d'une base de données externe.
La normalisation ne s'applique qu'aux valeurs stockées dans le Jeu de données (l'option Mettre les données en cache doit être activée dans les propriétés du jeu de données). Les valeurs de la base de données externe ne seront pas modifiées.
Comment la normalisation agit-elle lors de l'extraction de données dans ABBYY FlexiCapture for Invoices ?
1. Texte
Ce type de normalisation est utile lorsque vous comparez des chaînes, par exemple, des noms et adresses d'entreprise.
- Les blancs (y compris les blancs générés par les caractères de saut de ligne et de tabulation) et les symboles de séparation sont remplacés par des espaces conventionnels.
- Les points utilisés comme séparateurs (les points placés entre des mots) sont remplacés par des espaces et les points figurant dans des abréviations sont supprimés.
- Normalisation des symboles de conjonction (&, +, -, /, ~) :
- Si un ensemble de mots commençant par un mot d'une seule lettre, et si ces mots sont séparés par un même symbole de conjonction, les mots de cet ensemble sont fusionnés pour ne former qu'un seul mot. Par exemple : R & D devient R&D.
- Dans tous les autres cas, les symboles de conjonction sont remplacés par des espaces. Par exemple, Procter&Gamble devient Procter Gamble.
- Les doubles espaces sont supprimés.
- Une liste spécifiée à l'avance est utilisée pour séparer les mots. Par exemple, CoKG est séparé en Co KG.
- Les espaces du texte reconnu sont utilisés pour séparer les mots.
- Une liste spécifiée à l'avance est utilisée pour remplacer les suffixes de chaque mot. Par exemple, vous pouvez remplacer le suffixe strasse par le suffixe str.
- Remplacement automatique de chaînes de mots selon la liste spécifiée à l'avance Vous pouvez par exemple remplacer le mot Limited par l'abréviation Ltd.
Les paramètres de normalisation sont spécifiés dans le fichier Normalization.xml stocké dans le dossier du projet.
En savoir plus...
Remarque : Des modifications significatives seront éventuellement apportées à l'algorithme de normalisation des prochaines versions du programme.
2. Code alphanumérique
Ce type de normalisation est utile lorsque vous comparez des codes alphanumériques, par exemple, des numéros d'ID de taxe, des coordonnées bancaires et des indices de poste.
Tous les symboles, à l'exception des chiffres et des lettres, sont supprimés des valeurs, ce qui vous permet de comparer les valeurs tout en ignorant les espaces, tirets, barres obliques et autres caractères arbitraires éventuellement contenus dans ces valeurs.
Lorsque la normalisation est appliquée, l'option Stocker la valeur normalisée devient accessible au moment où vous associez une colonne de Jeu de données à une colonne de base de données externe.
- Lorsque cette option sera activée, les valeurs normalisées seront stockées dans le Jeu de données.
- Si elle ne l'est pas, les valeurs d'origine de la base de données externe seront copiées dans le Jeu de données.
Cette option n'affecte pas l'extraction de données ou les vérifications automatisées, mais elle détermine la valeur qui sera affichée pour l'utilisateur lorsqu'il recherchera une entrée dans un dictionnaire.
12.04.2024 18:16:04