Caractéristiques du document à prendre en compte avant d'effectuer l'OCR

La qualité des images a un impact considérable sur la qualité de la reconnaissance. Cette section décrit les facteurs que vous devez prendre en considération avant de reconnaître des images :

Langues du document

ABBYY FineReader reconnaît les documents mono et multilingues (par ex. : écrits en deux ou plusieurs langues). En cas de documents multilingues, il est nécessaire de sélectionner plusieurs langues de reconnaissance.

Pour spécifier une langue d'OCR pour votre document, dans la liste déroulante Langue du document de la barre d'outils principale ou dans la fenêtre Tâche, sélectionnez l'une des options suivantes :

  • Sélection automatique

ABBYY FineReader sélectionnera automatiquement les bonnes langues à partir de la liste de langues définie par l'utilisateur. Pour modifier cette liste :

  1. Sélectionnez Autres langues…
  2. Dans la boîte de dialogue Éditeur de langues, sélectionnez l'option Sélectionner automatiquement les langues des documents dans la liste suivante .
  3. Cliquez sur le bouton Spécifier….
  4. Dans la boîte de dialogue Langues, sélectionnez les langues souhaitées.
  • Une langue ou une combinaison de langues

Sélectionnez une langue ou une combinaison de langues. La liste de langues inclut les langues de reconnaissance récemment utilisées, ainsi que l'anglais, l'allemand et le français.

  • Autres langues…

Sélectionnez cette option si la langue souhaitée n'apparaît pas dans la liste.

Dans la boîte de dialogue Éditeur de langues, sélectionnez l'option Spécifier les langues manuellement puis sélectionnez la ou les langues souhaitées en cochant les cases appropriées. Si une combinaison de langues est fréquemment utilisée, vous pouvez créer un groupe pour ces langues.

Si une langue n'apparaît pas dans la liste, cela signifie que :

  1. Cette langue n’est pas prise en charge par ABBYY FineReader.

Pour obtenir la liste complète des langues prises en charge, consultez la section "Langues prises en charge."

  1. La langue n'est pas prise en charge par votre copie du logiciel.

Il est possible d'accéder à la liste complète des langues disponibles dans votre copie dans la boîte de dialogue Licences (Aide > À propos… > Infos sur la licence).

En plus de pouvoir utiliser les langues et les groupes de langues intégrés, vous pouvez créer vos propres langues. Pour plus de détails, consultez la section "Si le programme ne parvient pas à reconnaître certains caractères."

Type d'impression

Les documents peuvent être imprimés sur divers périphériques, tels que des machines à écrire ou des télécopieurs. La qualité d'OCR peut être améliorée en sélectionnant le bon Type de document dans la boîte de dialogue Options.

Pour la plupart des documents, le programme détecte automatiquement le type d'impression. Pour détecter automatiquement le type d'impression, l'option Auto doit être sélectionnée sous Type de document dans la boîte de dialogue Options (Outils > Options…). Vous pouvez traiter le document en mode Intégralité des couleurs ou en mode Noir et blanc.

Vous pouvez aussi décider de sélectionner manuellement le type d'impression selon vos besoins.

Exemple de texte tapé à la machine. Toutes les lettres ont la même largeur (comparez par exemple "w" et "t"). Pour les textes de ce type, sélectionnez Machine à écrire.
Un exemple de texte produit par un fax. Comme vous pouvez le constater sur l'exemple, les lettres ne sont pas claires à certains endroits, sans compter le bruit et la distorsion. Pour les textes de ce type, sélectionnez Fax.

Conseil : Après avoir reconnu des textes ou fax dactylographiés, veillez à sélectionner Auto avant de traiter des documents imprimés classiques.

Qualité d'impression

Les documents de qualité médiocre comportant du "bruit" (par exemple, des points noirs ou des traces), des lettres floues et irrégulières ou des lignes obliques et des bordures de tableaux déplacées requièrent parfois des paramètres de numérisation spécifiques.

Fax Journal

Les documents de qualité médiocre sont mieux numérisés en niveaux de gris. Lors de la numérisation en niveaux de gris, le programme choisit automatiquement la luminosité optimale.

Le mode de numérisation Niveaux de gris conserve plus d'informations sur les lettres du texte numérisé, ce qui permet d'obtenir une meilleure reconnaissance optique des caractères des documents de qualité médiocre à moyenne. Vous pouvez également corriger certains défauts manuellement en vous servant des outils d'édition d'images disponibles dans l'Éditeur d'images. Pour plus de détails, consultez la section Prétraitement d'images."

Mode de couleur

S'il ne vous est pas nécessaire de préserver les couleurs originales d'un document entièrement en couleur, vous pouvez traiter le document en mode Noir et blanc. Ceci réduira considérablement la taille du document ABBYY FineReader obtenu et accélérera le processus d'OCR. Cependant, traiter des images dont le contraste est faible en mode Noir et blanc peut générer une mauvaise qualité d'OCR. Nous ne vous recommandons pas de traiter les photos, les pages de magazines et les textes chinois, japonais et coréens en mode Noir et blanc.

Remarque : vous pouvez également accélérer la reconnaissance des documents couleur et des documents noir et blanc en sélectionnant l'option Lecture rapide de l'onglet Lire de la boîte de dialogue Options. Pour en savoir plus sur les modes de reconnaissance, consultez Options d'OCR.

Pour sélectionner le mode Couleur :

  • Utilisez la liste déroulante Mode Couleur de la boîte de dialogue Tâche ou
  • Sélectionnez l'une des options de Mode couleur. Elles se trouvent dans l'onglet Document de la boîte de dialogue Options (Outils > Options…).

Important ! Une fois que le document sera converti en noir et blanc, vous ne pourrez plus restaurer les couleurs. Pour obtenir un document couleur, ouvrez le fichier comportant les images en couleurs ou numérisez le document papier en mode Couleur.

1/14/2020 5:26:19 PM


Please leave your feedback about this article