Arbeit mit Sprachen mit komplexen Schriftzeichen

Mit ABBYY FineReader können Dokumente in Arabisch, Hebräisch, Jiddisch, Thailändisch, Chinesisch, Japanisch und Koreanisch erkannt werden. Bei der Arbeit mit Dokumenten in Chinesisch, Japanisch oder Koreanisch und mit Dokumenten mit einer Kombination aus CJK und europäischen Sprachen müssen zusätzliche Faktoren berücksichtigt werden.

Empfohlene Schriftarten

Für die Erkennung von Texten in Arabisch, Hebräisch, Jiddisch, Thailändisch, Chinesisch, Japanisch und Koreanisch müssen möglicherweise zusätzliche Schriftarten installiert werden. Die nachfolgende Tabelle enthält die empfohlenen Schriftarten für Texte in diesen Sprachen.

OCR-Sprachen Empfohlene Schriftart
Arabisch Arial™ Unicode™ MS
Hebräisch Arial™ Unicode™ MS
Jiddisch Arial™ Unicode™ MS
Thai

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinesisch (vereinfacht)

Chinesisch (traditionell)

Japanisch, Koreanisch

Koreanisch (Hangul)

Arial™ Unicode™ MS

SimSun-Schriftarten wie zum Beispiel:

SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (für-ISO10646)

STSong

Die nachfolgenden Abschnitte enthalten Ratschläge zur Verbesserung der Erkennungsqualität.

Deaktivieren der automatischen Bildverarbeitung

Standardmäßig werden alle Seiten, die Sie einem OCR-Projekt hinzufügen, automatisch erkannt.

Wenn Ihr Dokument jedoch einen Text in einer CJK-Sprache in Kombination mit einer europäischen Sprache enthält, empfehlen wir Ihnen, die automatische Erkennung der Seitenausrichtung zu deaktivieren und die Option zur Trennung von Doppelseiten nur dann zu verwenden, wenn alle Seitenbilder die korrekte Richtung aufweisen (wenn sie beispielsweise nicht um 180° gedreht gescannt wurden).

Die Optionen Seitenausrichtung korrigieren und Gegenüberliegende Seiten trennen können auf der Registerkarte Bildverarbeitung des Dialogfelds Optionen aktiviert/deaktiviert werden (klicken Sie auf Werkzeuge > Optionen..., um dieses Dialogfeld zu öffnen).

Achten Sie beim Trennen gegenüberliegender Seiten in Arabisch, Hebräisch oder Jiddisch darauf, zuerst die entsprechende OCR-Sprache und erst dann die Option Gegenüberliegende Seiten trennen auszuwählen. Sie können außerdem die ursprünglichen Seitenzahlen wiederherstellen, indem Sie die Option Buchseiten vertauschen auswählen. Siehe auch: OCR-Projekte.

Wenn Ihr Dokument eine komplexe Struktur aufweist, empfehlen wir Ihnen, die automatische Analyse und Erkennung für Bilder zu deaktivieren und diese Vorgänge manuell auszuführen.

Sie können die automatische Analyse und Erkennung neu hinzugefügter Bilder in der Registerkarte Bildverarbeitung des Dialogfelds Optionen deaktivieren (klicken Sie auf Werkzeuge > Optionen..., um dieses Dialogfeld zu öffnen).

  1. Klicken Sie auf Werkzeuge > Optionen..., um dasDialogfeld zu Optionen öffnen.
  2. Deaktivieren Sie in der Registerkarte Bildverarbeitung die Option Seitenbilder bei deren Hinzufügen zum OCR-Editor automatisch verarbeiten.
  3. Klicken Sie auf OK.

Erkennen von Dokumenten in mehr als einer Sprache

Die folgenden Informationen dienen als Beispiel und erläutern, wie man ein Dokument erkennt, das sowohl englischen als auch chinesischen Text enthält. Dokumente, die andere Sprachen enthalten, können auf ähnliche Weise erkannt werden.

  1. Wählen Sie in der Hauptsymbolleiste Weitere Sprachen... aus der Liste der Sprachen. Wählen Sie im Dialogfeld Spracheditor die Option OCR-Sprachen manuell festlegen und wählen Sie Chinesisch und Englisch aus der Liste der Sprachen.
  2. Scannen Sie die Seiten oder öffnen Sie die Bilder.
  3. Wenn das Programm nicht alle Bereiche eines Bildes erkennt:
    • Bestimmen Sie die Bereiche manuell mit den Werkzeugen zur Bereichsbearbeitung.
    • Bestimmen Sie alle Bereiche, die nur eine Sprache enthalten und wählen Sie in Bereichseigenschaften entsprechend Englisch oder Chinesisch.
      Sie können nur für Bereiche desselben Typs eine Sprache festlegen. Haben Sie Bereiche verschiedenen Typs ausgewählt, wie beispielsweise Text und Tabelle, können Sie keine Sprache festlegen.
    • Wählen Sie gegebenenfalls die Textausrichtung aus der Dropdownliste Ausrichtung (weitere Informationen finden Sie unter Wenn vertikaler oder invertierter Text nicht erkannt wurde)
    • Für Texte in CJK-Sprachen bietet das Programm die Auswahl der Textausrichtung in der Dropdownliste CJK-Textrichtung (weitere Informationen finden Sie unter Bearbeiten der Bereichseigenschaften).

Wenn nichteuropäische Zeichen nicht im Textfenster angezeigt werden

Wird ein Text in einer CJK-Sprache imTextfenster falsch angezeigt, haben Sie u. U. den Modus Nur Text ausgewählt.

So ändern Sie die verwendete Schriftart im Modus Nur Text:

  1. Klicken Sie auf Werkzeuge > Optionen..., um dasDialogfeld zu Optionen öffnen.
  2. Klicken Sie auf die Registerkarte Bereiche und Text.
  3. Wählen Sie Arial Unicode MS aus der Dropdownliste Verwendete Schriftart für die Anzeige von einfachem Text.
  4. Klicken Sie auf OK.

Wenn dies nicht hilft und der Text im Textfenster weiterhin falsch angezeigt wird, lesen Sie bitte Falsche Schriftart wird verwendet oder manche Zeichen werden durch "?" oder "□" ersetzt.

Ändern der Richtung des erkannten Texts

ABBYY FineReader erkennt die Textrichtung automatisch, Sie können sie aber auch manuell festlegen.

  1. Aktivieren Sie das Textfenster.
  2. Wählen Sie einen oder mehrere Absätze aus.
  3. Klicken Sie auf die Schaltfläche in der Symbolleiste des Textfensters.

Sie können die Dropdownliste CJK-Textrichtung im Bildfenster verwenden, um die Textausrichtung vor der Erkennung festzulegen. Siehe auch: Bearbeiten der Bereichseigenschaften.

02.11.2018 16:19:16

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.