Si un document que vous souhaitez reconnaître contient des polices décoratives ou des caractères spéciaux (p.ex., exemple des symboles mathématiques) inconnus du programme, nous vous recommandons d'utiliser le mode Apprentissage de gabarit pour améliorer la précision d'OCR. Les gabarits sont créés en associant des images de caractères, telles qu'elles apparaissent dans le texte, à leurs équivalents respectifs sur le clavier. Pour ce faire, il suffit d'appuyer sur la touche droite du clavier lorsque le programme indique une image de caractère qu'il ne peut pas reconnaître. Vous serez parfois obligé de confirmer le même caractère plusieurs fois à l'aide du clavier, car l'ordinateur détectera des différences plus infimes imperceptibles à l'œil nu entre les images de caractères. C'est ce qu'on appelle l'Apprentissage de gabarit et cela renforce efficacement l'association entre les ensembles d'images de caractères et leurs équivalents sur le clavier.
Il est déconseillé d'utiliser le mode Apprentissage dans d'autres cas, car les gains en matière de qualité de l'OCR seront insignifiants par rapport au temps et aux efforts consacrés à l'apprentissage.
L'apprentissage de gabarit n'est pas pris en charge pour les langues asiatiques.
En mode Apprentissage, un Gabarit utilisateur est créé. Il peut être utilisé lors de l'exécution de l'OCR sur le texte entier.
Vous pouvez souhaiter modifier le modèle que vous venez de créer avant de lancer le processus d'OCR. Un apprentissage de gabarit incorrect peut altérer la qualité de l'OCR. Le gabarit ne doit contenir que des caractères ou des ligatures entiers. Les caractères avec des bords découpés et les caractères avec des couplages incorrects de lettres doivent être supprimés du gabarit.
Création et modification des gabarits
Dans Éditeur de gabarits (Outils > Éditeur de gabarits..., vous pouvez créer un gabarit, sélectionner un gabarit à utiliser pour l’OCR ou modifier et supprimer des gabarits existants. Pour ce faire :
- Pour créer un nouveau gabarit, cliquez sur Nouveau.... et saisissez un nom pour votre gabarit dans la boîte de dialogue Éditeur de gabarits.... Appuyez surOK . Vous pouvez maintenant apprendre au programme à reconnaître les images de caractères qui sont des nouveautés pour lui.
- Pour modifier un gabarit existant :
- Dans la boîte de dialogue Éditeur de gabarits..., sélectionnez le gabarit que vous souhaitez modifier et cliquez sur Édition....
- Dans la boîte de dialogue Gabarit utilisateur, sélectionnez une image et cliquez sur Propriétés....
- Dans la boîte de dialogue Propriétés qui s'ouvre :
- Dans le Caractèrechamp, tapez le caractère du clavier qui correspond à l’image de caractère actuellement en surbrillance sur l’écran.
- Si vous souhaitez conserver les effets de texte dans le texte reconnu, sélectionnez l’effet de texte requis (c.-à-d., italique, gras, exposant ou indice) dans le groupe d’options Effets.
- Pour renommer un gabarit, sélectionnez-le dans la liste, cliquez sur Renommer..., puis saisissez un nouveau nom dans le champ Nom du gabarit.
- Pour rendre un gabarit actif, sélectionnez-le dans la liste de la boîte de dialogue Gabarit utilisateur et cliquez sur Définir comme actif.
- Pour supprimer un gabarit, sélectionnez-le dans la liste de la boîte de dialogue Gabarit utilisateur et cliquez sur Supprimer.
Apprentissage de gabarits
Afin d'apprendre à un gabarit utilisateur à reconnaître de nouveaux caractères et de nouvelles ligatures :
- Cliquez sur Outils > Apprentissage de gabarit).
- Lorsque le programme rencontre un caractère ou une ligature qu'il ne peut pas reconnaître, la boîte de dialogue Apprentissage du gabarit s'ouvre en affichant l'image du caractère ou de la ligature inconnu.
- Appuyez sur le caractère ou la séquence de caractères correspondant sur le clavier.
- Les ligatures sont des séquences de deux ou trois caractères imprimés si proches les uns des autres que le programme les considère comme un caractère unique.
- Si vous souhaitez conserver les effets de texte, sélectionnez l’effet de texte requis (c.-à-d., italique, gras, exposant ou indice) dans le groupe d’options Effets.
- À mesure que l’apprentissage progresse d’un caractère non reconnu au suivant, vous pouvez revenir à l’image du caractère ayant précédemment fait l'objet d'un apprentissage en cliquant sur le bouton Retour. Le cadre de contour passera à l'image de caractère précédente et la dernière association « image de caractère/caractère de clavier » sera supprimée. Le bouton Retour fonctionne uniquement dans le mot en cours et ne va pas plus loin que sa première lettre.
- À la fin de l'apprentissage, cliquez sur Fermer. Le programme vous demandera si vous souhaitez enregistrer les résultats de l'apprentissage. Cliquez sur Oui.
- Un nouveau processus d'OCR sera lancé, pour lequel le programme utilisera les gabarits ayant récemment fait l'objet d'un apprentissage.
- À la fin de l’OCR, vérifiez le texte reconnu. Si certain des caractères ont été reconnus de manière erronée, cliquez sur le bouton Continuer l'apprentissage de gabarit.
- Pour quitter le mode Apprentissage de gabarit, cliquez sur le bouton Enregistrer le gabarit et terminer l’apprentissage.
Important ! Les gabarits ne peuvent faire l'objet d'un apprentissage que pour les caractères issus de l'alphabet utilisé dans le texte. Si une ligature ou un caractère ne correspond à aucune touche du clavier, vous pouvez appuyer consécutivement sur les deux touches qui ensemble constitueront la ligature requise ou cliquer sur le bouton et sélectionner le caractère requis dans la boîte de dialogue Insérer un caractère.
Important ! Chaque gabarit peut contenir jusqu'à 1 000 nouveaux caractères. Notez cependant qu’avoir trop de ligatures dans un gabarit peut nuire à la qualité de l’OCR.
Quelques faits importants à connaître sur l'apprentissage de gabarit
- Le moteur d'OCR ne fait aucune distinction entre certaines images de caractères et les associe à un seul et même caractère du clavier. Par exemple, les apostrophes droites ('), les guillemets simples de gauche (') et les guillemets simples de droite (’) seront tous associés au caractère de clavier Apostrophe droite. Cela signifie que les guillemets de gauche et de droite ne seront jamais reproduits dans les textes reconnus, même si vous entrez les caractères de clavier respectifs en mode Apprentissage de gabarit.
- Pour certaines images de caractères, le moteur d'OCR choisira des équivalents du clavier en fonction du contexte plus large. Par exemple, l'image d'un cercle peut être un zéro ou la lettre O, et le moteur d'OCR choisira entre les deux options en étudiant les caractères voisins. Si le cercle est entouré de chiffres, le programme optera pour le zéro, sinon il interprétera les cercles comme étant la lettre O.
- Un gabarit ayant fait l'objet d'un apprentissage ne peut être utilisé que pour reconnaître un texte imprimé présentant un type et une taille de police identiques et numérisé avec la même résolution que celle de l'image à partir de laquelle l'apprentissage de gabarit a été effectué.