Travailler avec les langages dont l'écriture est complexe

Avec ABBYY FineReader, vous pouvez reconnaître les documents en arabe, hébreu, yiddish, thaï, chinois, japonais et coréen. Vous devez tenir compte de certaines considérations supplémentaires lorsque vous travaillez avec des documents en chinois, japonais ou coréen et des documents dans lesquels une combinaison CJK et de langues européennes est utilisée.

Installation de fichiers de prise en charge linguistique

Pour pouvoir reconnaître les textes écrits en arabe, hébreu, yiddish, thaï, chinois, japonais et coréen, il vous faudra peut-être installer ces langues.

Microsoft Windows 8, Windows 7 et Windows Vista prennent en charge ces langues par défaut.

Pour installer de nouvelles langues sous Microsoft Windows XP :

  1. Cliquez sur Démarrer dans la barre d'outils.
  2. Cliquez sur Panneau de configuration > Options régionales et linguistiques.
  3. Cliquez sur l'onglet Langues, puis sélectionnez les options suivantes :
    • Installez les fichiers pour les langues dont l'écriture est complexe et lues de droite à gauche (y compris le thaï)

pour activer la prise en charge de l'arabe, de l'hébreu, du yiddish et du thaï.

  • Installer les fichiers pour les langues d'Asie de l'est

pour activer la prise en charge du japonais, du chinois et du coréen.

  1. Cliquez sur OK.

Polices recommandées

La reconnaissance de texte en arabe, hébreu, yiddish, thaï, chinois, japonais et coréen peut nécessiter l'installation de polices supplémentaires dans Windows. Le tableau ci-dessous liste les polices recommandées pour les textes dans ces langues.

Langue d'OCR Police recommandée
Arabe Arial™ Unicode™ MS*
Hébreu Arial™ Unicode™ MS*
Yiddish Arial™ Unicode™ MS*
Thaï

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinois (simplifié),

chinois (traditionnel),

japonais, coréen,

coréen (Hangul)

Arial™ Unicode™ MS*

Polices SimSun

telles que : SimSun (Founder Extended), SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

* Cette police est installée avec Microsoft Windows XP et Microsoft Office 2000 ou versions ultérieures.

Les sections ci-dessous contiennent des conseils permettant d'améliorer la précision de reconnaissance.

Désactivation du traitement automatique

Toutes les pages ajoutées à un document ABBYY FineReader sont par défaut reconnues automatiquement.

Toutefois, si votre document contient un texte dans une langue CJK combinée à une langue européenne, désactivez la détection automatique de l'orientation des pages et n'utilisez l'option de scission des pages doubles que si toutes les images de page sont bien orientées (par exemple, si elles n'ont pas été numérisées à 180°).

Les options Détecter l'orientation des pages et Scinder les pages en regard peuvent être activées et désactivées dans l' onglet Numériser/ouvrir de la boîte de dialogue Options.

Remarque : Pour scinder les pages en regard en arabe, hébreu et yiddish, assurez-vous d'abord d'avoir sélectionné la langue de reconnaissance correspondante et seulement ensuite, sélectionnez l'option Scinder les pages en regard. Cela vous permettra de vous assurer que toutes les pages sont rangées dans le bon ordre. Vous pouvez également restaurer la numérotation de pages d'origine en sélectionnant l'option Intervertir des pages de livre. Pour plus de détails, consultez la section "Qu'est-ce qu'un document FineReader ?"

Si votre document possède une structure complexe, désactivez l'analyse automatique et l'OCR pour les images et exécutez ces opérations manuellement.

Pour désactiver l'analyse automatique et l'OCR :

  1. Ouvrez la boîte de dialogue Options (Outils > Options…).
  2. Décochez l'option Traiter automatiquement les pages dès qu'elles sont ajoutées de l'onglet Numériser/ouvrir.
  3. Cliquez sur OK.

Reconnaissance de documents écrits dans plusieurs langues

Dans les instructions ci-dessous, un document contenant à la fois du texte anglais et du texte chinois est pris comme exemple.

  1. Sur la barre d'outils principale, sélectionnez Autres langues… dans la liste déroulante Langues du document. Sélectionnez Spécifier les langues manuellement dans la boîte de dialogue Éditeur de langues et sélectionnez chinois et anglais dans la liste de langues.
  2. Numérisez ou ouvrez les images.
  3. Si le programme ne parvient pas à détecter toutes les zones d'une image :
    • Spécifiez manuellement les zones à l'aide des outils de modification de zones.
    • Spécifiez les zones ne contenant qu'une seule langue. Pour ce faire, sélectionnez-les et spécifiez leurs langues dans le volet Propriétés de la zone.

Important ! Vous ne pouvez spécifier qu'une seule langue par zone de même type. Si vous avez sélectionné des zones de types différents, tels que Texte et Tableau, vous ne pourrez spécifier aucune langue.

  1. Cliquez sur le bouton Lire de la barre d'outils principale.

Si les caractères non européens ne s'affichent pas dans la fenêtre Texte

Si le texte dans une langue CJK est mal affichée dans la fenêtre Texte, vous avez peut-être sélectionné le mode Texte normal.

Pour modifier la police utilisée en mode Texte normal :

  1. Ouvrez la boîte de dialogue d'options Options (Outils > Options…).
  2. Cliquez sur l'onglet Affichage.
  3. Sélectionnez Arial Unicode MS dans la liste déroulante Police utilisée pour afficher le texte normal .
  4. Cliquez sur OK.

Si cette démarche ne vous a pas aidé et si le texte de la fenêtre Texte est toujours incorrectement affiché, consultez la section "Si certains caractères sont remplacés par "?" ou "□" dans la fenêtre Texte."

Changement du sens du texte reconnu

ABBYY FineReader détecte automatiquement le sens du texte. Cependant, vous pouvez également spécifier le sens du texte manuellement.

  1. Sélectionnez un ou plusieurs paragraphes dans la fenêtre Texte.
  2. Cliquez sur le bouton de la barre d'outils de la fenêtre Texte.

Remarque : vous pouvez utiliser la liste déroulante Sens du texte CJK dans la fenêtre Image pour spécifier le sens du texte avant de procéder à la reconnaissance. Consultez la section Si le texte vertical ou inversé est mal reconnu pour plus de détails.

14.01.2020 17:26:19


Please leave your feedback about this article