Apprentissage de gabarit

Si un document que vous souhaitez reconnaître contient des polices décoratives ou des caractères spéciaux (p.ex., exemple des symboles mathématiques) inconnus du programme, nous vous recommandons d'utiliser le mode Apprentissage de gabarit pour améliorer la précision d'OCR. Les gabarits sont créés en associant des images de caractères, telles qu'elles apparaissent dans le texte, à leurs équivalents respectifs sur le clavier. Pour ce faire, il suffit d'appuyer sur la touche droite du clavier lorsque le programme indique une image de caractère qu'il ne peut pas reconnaître. Vous serez parfois obligé de confirmer le même caractère plusieurs fois à l'aide du clavier, car l'ordinateur détectera des différences plus infimes imperceptibles à l'œil nu entre les images de caractères. C'est ce qu'on appelle l'Apprentissage de gabarit et cela renforce efficacement l'association entre les ensembles d'images de caractères et leurs équivalents sur le clavier.

Il est déconseillé d'utiliser le mode Apprentissage dans d'autres cas, car les gains en matière de qualité de l'OCR seront insignifiants par rapport au temps et aux efforts consacrés à l'apprentissage.

L'apprentissage de gabarit n'est pas pris en charge pour les langues asiatiques.

En mode Apprentissage, un Gabarit utilisateur est créé. Il peut être utilisé lors de l'exécution de l'OCR sur le texte entier.

Vous pouvez souhaiter modifier le modèle que vous venez de créer avant de lancer le processus d'OCR. Un apprentissage de gabarit incorrect peut altérer la qualité de l'OCR. Le gabarit ne doit contenir que des caractères ou des ligatures entiers. Les caractères avec des bords découpés et les caractères avec des couplages incorrects de lettres doivent être supprimés du gabarit.

Création et modification des gabarits

Apprentissage de gabarits

Quelques faits importants à connaître sur l'apprentissage de gabarit

  • Le moteur d'OCR ne fait aucune distinction entre certaines images de caractères et les associe à un seul et même caractère du clavier. Par exemple, les apostrophes droites ('), les guillemets simples de gauche (') et les guillemets simples de droite (’) seront tous associés au caractère de clavier Apostrophe droite. Cela signifie que les guillemets de gauche et de droite ne seront jamais reproduits dans les textes reconnus, même si vous entrez les caractères de clavier respectifs en mode Apprentissage de gabarit.
  • Pour certaines images de caractères, le moteur d'OCR choisira des équivalents du clavier en fonction du contexte plus large. Par exemple, l'image d'un cercle peut être un zéro ou la lettre O, et le moteur d'OCR choisira entre les deux options en étudiant les caractères voisins. Si le cercle est entouré de chiffres, le programme optera pour le zéro, sinon il interprétera les cercles comme étant la lettre O.
  • Un gabarit ayant fait l'objet d'un apprentissage ne peut être utilisé que pour reconnaître un texte imprimé présentant un type et une taille de police identiques et numérisé avec la même résolution que celle de l'image à partir de laquelle l'apprentissage de gabarit a été effectué.

26.03.2024 13:49:51

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.