Travail avec des langues à écriture complexe

Avec ABBYY FineReader, vous pouvez reconnaître les documents en arabe, hébreu, yiddish, thaï, chinois, japonais et coréen. D'autres facteurs doivent être pris en compte lorsque vous travaillez avec des documents en chinois, japonais ou coréen et avec les documents dans lesquels une combinaison de langues CJC et européennes est utilisée.

Polices recommandées

La reconnaissance du texte en arabe, hébreu, yiddish, thaï, chinois, japonais et coréen peut nécessiter l'installation de polices supplémentaires. Le tableau ci-dessous énumère les polices recommandées pour les textes dans ces langues.

langues d'OCR Police recommandée
Arabic Arial™ Unicode™ MS
Hébreu Arial™ Unicode™ MS
Yiddish Arial™ Unicode™ MS
Thaï

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinois (simplifié)

Chinois (traditionnel)

Japonais, coréen

Coréen (Hangeul)

Arial™ Unicode™ MS

Polices SimSun telles que :

Exemple de SimSun ( fondateur étendu),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (pour-ISO10646)

STSong

Les sections ci-dessous contiennent des conseils permettant d'améliorer la précision de reconnaissance.

Désactivation du traitement automatique des images

Par défaut, les pages que vous ajoutez à un Projet d'OCR sont automatiquement reconnues.

Toutefois, si votre document contient du texte en langue CJC combinée avec une langue européenne, nous vous recommandons de désactiver la détection automatique de l'orientation de page et d'utiliser l'option de fractionnement des pages en vis-à-vis uniquement si toute les images de la page sont dans le bon sens (par exemple, si elles n'ont pas été numérisées à l'envers).

Vous pouvez activer/désactiver Corriger l'orientation des pages et Scinder les pages en regard les options sur Traitement des images l'onglet de la Options la boîte de dialogue (cliquez sur Outils > Options... pour ouvrir cette boîte de dialogue).

Pour fractionner les pages en vis-à-vis en arabe, hébreu ou yiddish, veillez à sélectionner dans un premier temps la langue d'OCR correspondante puis ensuite sélectionner Scinder les pages en regard l'option. Vous pouvez également restaurer la numérotation de page d'origine en sélectionnant Intervertir des pages de livre l'option. Consultez également : Projets d'OCR.

Si la structure de votre document est complexe, nous vous recommandons de désactiver l'analyse et l'OCR automatiques pour les images et de réaliser ces opérations manuellement.

Vous pouvez désactiver l'analyse et l'OCR automatiques des nouvelles images ajoutées dans Traitement des images l'onglet de la Options la boîte de dialogue (cliquez sur Outils > Options... pour ouvrir cette boîte de dialogue).

  1. Cliquez sur Outils > Options... pourouvrir la Options boîte de dialogue.
  2. Dans la barre d'outils Traitement des images volet, effacez Traiter automatiquement les images de la page lors de leur ajout sur l'éditeur OCR l'option.
  3. Cliquez sur OK.

Reconnaissance des documents écrits dans plus d'une langue

Les instructions suivantes sont fournies à titre d'exemple et expliquent comment reconnaître un document contenant du texte anglais et du texte chinois. Les documents contenant d'autres langues peuvent être reconnus de la même manière.

  1. Sur la barre d'outils principale, sélectionnez Autres langues... depuis la liste des langues. Dans la Éditeur de langues boîte de dialogue, sélectionnez Spécifier manuellement les langues d'OCR  et sélectionnez le chinois et l'anglais depuis la liste des langues.
  2. Numérisez vos pages ou ouvrez vos images.
  3. Si le programme ne parvient pas à détecter toutes les zones d'une image :
    • Spécifiez les zones manuellement à l'aide des outils d'édition de zone
    • Spécifiez toute zone ne contenant qu'une seule langue et sur Propriétés de la zone sélectionnez anglais ou chinois de façon appropriée.
      Une langue peut être uniquement spécifiée pour la zone du même type. Si vous avez sélectionné des zones de types différents, par exemple la barre d'outils et un tableau, vous ne serez pas en mesure de spécifier une langue.
    • Si nécessaire, sélectionnez l'orientation du texte depuis Orientation  la liste déroulante (pour plus d'informations, consultez Si le texte vertical ou inversé n'a pas été reconnu)
    • Pour les textes en langue CJC, le programme fournit une sélection d'orientations de texte dans Sens du texte CJK la liste déroulante (pour plus d'informations, consultez Propriétés de zone d'édition).

Si les caractères non européens ne s'affichent pas dans le volet Texte

Si le texte en langue CJC ne s'affiche pas correctement dans le voletla barre d'outils , vous avez peut-être sélectionné Texte brut mode.

Pour modifier la police utilisée dans Texte brut le mode :

  1. Cliquez sur Outils > Options... pourouvrir la Options boîte de dialogue.
  2. Cliquez sur le Zones et texte.
  3. Sélectionnez Arial Unicode MS depuis Police utilisée pour l'affichage du texte normalla liste déroulante.
  4. Cliquez sur OK.

Si cela n'a pas aidé et que le texte du la barre d'outils n'est toujours pas affiché correctement, consultez Une police incorrecte est utilisée ou certains caractères sont remplacés par « ? » ou « □ ».

Changement du sens du texte reconnu

ABBYY FineReader détecte automatiquement le sens du texte. Cependant, vous pouvez également spécifier le sens du texte manuellement.

  1. Activer le volet Texte.
  2. Sélectionnez un ou plusieurs paragraphes.
  3. Cliquez sur le bouton de la barre d'outils dans le volet Texte.

Vous pouvez utiliser la Sens du texte CJK liste déroulante dans le volet Image pour spécifier l'orientation du texte avant l'OCR. Consultez également : Propriétés de zone d'édition.

12.06.2024 14:30:16

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.