Caractéristiques du document à prendre en compte avant l'OCR

La qualité des images a un impact significatif sur la qualité d'OCR. Cette section explique les facteurs que vous devez prendre en compte avant de reconnaître des images.

langues d'OCR

ABBYY FineReader peut reconnaître des documents à une seule langue ou composés de plusieurs langues (par exemple, écrits dans deux langues ou plus). Pour les documents multi-langues, vous devez sélectionner plusieurs langues d'OCR.

Pour sélectionner les langues d'OCR, cliquez sur Options > Langues et sélectionnez l'une des options suivantes :

  • Sélectionner automatiquement les langues d'OCR dans la liste suivante 
    ABBYY FineReader sélectionne automatiquement les langues appropriées depuis la liste des langues définie par l'utilisateur. Pour modifier la liste des langues :
    1. Assurez-vous que Sélectionner automatiquement les langues d'OCR dans la liste suivante  l'option est sélectionnée.
    2. Cliquez sur le Spécifier... bouton.
    3. Dans la Langues boîte de dialogue, sélectionnez les langues souhaitées et cliquez sur OK.
    4. Dans la Options boîte de dialogue, cliquez OK.
  • Spécifier manuellement les langues d'OCR 
    Sélectionnez cette option si la langue recherchée ne figure pas dans la liste.

Dans la boîte de dialogue ci-dessous, spécifiez une ou plusieurs langues. S'il y a une certaine combinaison de langue que vous utilisez souvent, vous pouvez créer un nouveau groupe pour ces langues.

Si une langue ne figure pas dans la liste, elle est soit :

  1. Non prise en charge par ABBYY FineReader, ou
    Pour la liste complète des langues prises en charge, consultez la rubrique Langues d'OCR prises en charge.
  2. Non prise en charge par votre version du produit.
    La liste complète des langues disponibles dans votre version du produit est disponible dans la boîte de dialogue Licences (cliquez sur Aide > À propos... > Infos sur la licence pour ouvrir cette boîte de dialogue).

Hors l'utilisation des langues et groupes de langues pris en charge, vous pouvez créer vos propres langues et groupes. Consultez également : Si le programme ne parvient pas à reconnaître certains caractères.

Type d'impression

Les documents peuvent être imprimés à l'aide de périphériques variés tels que des imprimantes ou télécopieurs. La qualité d'OCR peut varier selon la manière dont a été imprimé le document. Vous pouvez améliorer la qualité d'OCR en sélectionnant le type d'impression adéquat dans la Options boîte de dialogue.

Pour la plupart des documents, le programme détectera automatiquement le type d'impression. Pour une détection automatique du type d'impression, l' Auto option doit être sélectionnée dans le Type de document groupe d'options de Options la boîte de dialogue (cliquez sur Outils > Options... > OCR pour accéder à ces options). Vous pouvez traiter les documents en mode couleur ou noir et blanc.

Vous pouvez également choisir de sélectionner manuellement le type d'impression selon vos besoins.

Un exemple de texte dactylographié. Toutes les lettres sont de largeur égale (comparez par exemple le « w » et le « t »). Pour les textes de ce type, sélectionnez Machine à écrire.
Un exemple de texte produit par un appareil de télécopie. Comme vous pouvez le constater dans cet exemple, certaines des lettres ne sont pas claires. On observe également un peu de bruit et de distorsion. Pour les textes de ce type, sélectionnez Fax.

Après avoir reconnu les textes ou faxes dactylographiés, veillez à sélectionner Auto avant le traitement des documents classiques imprimés.

Qualité d'impression

Les documents de faible qualité contenant du « bruit » (par exemple des points noirs aléatoires ou de petites tâches), des lettres floues et inégales ou des lignes déformées et des bordures de tableau décalées peuvent nécessiter des paramètres de numérisation spécifiques.

Fax Journal

La numérisation des documents à faible qualité a de meilleurs résultats en niveaux de gris. Lors de la numérisation en niveaux de gris, le programme sélectionnera automatiquement la valeur de luminosité optimale.

Le mode de numérisation en niveaux de gris conserve plus d'informations sur les lettres du texte numérisé, ce qui permet d'obtenir une meilleure reconnaissance optique des caractères des documents de qualité faible à moyenne. Vous pouvez également corriger certains défauts manuellement en vous servant des outils d'édition d'images disponibles dans l'éditeur d'images. Consultez également : Si l'image de votre document contient des défauts et que la précision de l'OCR est faible.

Mode de couleur

Si vous n'avez pas besoin de préserver les couleurs d'origine du document en couleur, vous pouvez le traiter en mode noir et blanc. Cela réduira considérablement la taille du projet d'OCR obtenu et la vitesse du processus d'OCR. Cependant, le traitement des images à faible contraste en noir et blanc peut résulter en une faible qualité d'OCR. Nous ne recommandons pas non plus le traitement en noir et blanc de photos, pages de magazine et textes en chinois, japonais et coréen.

Astuce. Vous pouvez également accélérer l'OCR des documents en couleur et en noir et blanc en sélectionnant Reconnaissance précise dans la barre d'outils OCR l'onglet de la Options boîte de dialogue. Pour plu d'informations concernant les modes de reconnaissance, consultez la rubrique Options d'OCR.

Pour plus de conseils concernant la sélection du bon mode de couleur, consultez la rubrique Conseils de numérisation.

Une fois le document converti en noir et blanc, vous ne pourrez plus restaurer les couleurs. Pour obtenir un document en couleur, ouvrez un fichier avec des images en couleur ou numérisez un document papier en mode couleur.

11/2/2018 4:19:22 PM


Please leave your feedback about this article