Arbeit mit Sprachen mit komplexen Schriftzeichen

Mit ABBYY FineReader können Dokumente in Arabisch, Hebräisch, Jiddisch, Thailändisch, Chinesisch, Japanisch und Koreanisch erkannt werden. Bei der Arbeit mit Dokumenten in Chinesisch, Japanisch oder Koreanisch und mit Dokumenten mit einer Kombination aus CJK und europäischen Sprachen müssen zusätzliche Dinge berücksichtigt werden.

Installieren des Sprachsupports

Um Texte auf Arabisch, Hebräisch, Jiddisch, Thailändisch, Chinesisch, Japanisch und Koreanisch erkennen zu können, müssen diese Sprachen u. U. installiert werden.

Microsoft Windows 8, Windows 7 und Windows Vista unterstützen diese Sprachen standardmäßig.

So installieren Sie neue Sprachen in Microsoft Windows XP:

  1. Klicken Sie in der Taskleiste auf Start.
  2. Klicken Sie auf Systemsteuerung > Länder- und Spracheneinstellungen.
  3. Klicken Sie auf die Registerkarte Sprachen und wählen Sie die folgenden Optionen:
    • Dateien für Sprachen mit komplexen Schriftzeichen und Rechts-nach-links-Schreibrichtung installieren (einschließlich Thailändisch)

, damit Texte in Arabisch, Hebräisch und Thailändisch unterstützt werden können

  • Dateien für ostasiatische Sprachen installieren

, um Japanisch, Chinesisch und Koreanisch zu aktivieren.

  1. Klicken Sie auf OK.

Empfohlene Schriftarten

Für die Erkennung von Texten in Arabisch, Hebräisch, Jiddisch, Thailändisch, Chinesisch, Japanisch und Koreanisch müssen möglicherweise zusätzliche Schriftarten in Windows installiert werden. Die nachfolgende Tabelle enthält die empfohlenen Schriftarten für Texte in diesen Sprachen.

OCR-Sprache Empfohlene Schriftart
Arabisch Arial™ Unicode™ MS*
Hebräisch Arial™ Unicode™ MS*
Jiddisch Arial™ Unicode™ MS*
Thai

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinesisch (vereinfacht),

Chinesisch (traditionell),

Japanisch, Koreanisch,

Koreanisch (Hangul)

Arial™ Unicode™ MS*

SimSun-Schriftarten

zum Beispiel: SimSun (Founder Extended), SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(für-ISO10646)

STSong

* Diese Schriftart wird zusammen mit Microsoft Windows XP und Microsoft Office 2000 oder späteren Versionen installiert.

Die nachfolgenden Abschnitte enthalten Vorschläge zur Verbesserung der Erkennungsqualität.

Deaktivieren der automatischen Bildvorverarbeitung

Standardmäßig werden alle Seiten, die Sie einem ABBYY FineReader-Dokument hinzufügen, automatisch erkannt.

Wenn Ihr Dokument jedoch einen Text in einer CJK-Sprache in Kombination mit einer europäischen Sprache enthält, empfehlen wir Ihnen, die automatische Erkennung der Seitenausrichtung zu deaktivieren und die Option Doppelseiten trennen nur dann zu verwenden, wenn alle Seitenbilder die korrekte Richtung aufweisen (wenn sie beispielsweise nicht um 180° gedreht gescannt wurden).

Die Optionen Seitenausrichtung erkennen und Gegenüberliegende Seiten trennen können auf der Registerkarte Scannen/Öffnen im Dialogfeld Optionen aktiviert und deaktiviert werden.

Hinweis: Achten Sie beim Trennen gegenüberliegender Seiten in Arabisch, Hebräisch oder Jiddisch darauf, zuerst die entsprechende Erkennungssprache und erst dann die Option Gegenüberliegende Seiten trennen auszuwählen. Dadurch wird sichergestellt, dass die Seiten in der korrekten Reihenfolge angeordnet werden. Sie können außerdem die ursprünglichen Seitennummern wiederherstellen, indem Sie die Option Buchseiten vertauschen auswählen. Detaillierte Informationen finden Sie unter "Was ist ein FineReader-Dokument?"

Wenn Ihr Dokument eine komplexe Struktur aufweist, empfehlen wir Ihnen, die automatische Analyse und Erkennung für Bilder zu deaktivieren und diese Vorgänge manuell auszuführen.

So deaktivieren Sie die automatische Analyse und Erkennung:

  1. Öffnen Sie das Dialogfeld Optionen (Extras > Optionen…).
  2. Deaktivieren Sie auf der Registerkarte Scannen/Öffnen die Option Seiten nach Hinzufügen automatisch verarbeiten.
  3. Klicken Sie auf OK.

Erkennen von Dokumenten in mehr als einer Sprache

In den nachfolgenden Anweisungen dient ein Dokument mit englischem und chinesischem Text als Beispiel.

  1. Wählen Sie auf der Hauptsymbolleiste Weitere Sprachen… aus der Dropdown-Liste Dokumentsprachen. Wählen Sie aus dem Dialogfeld Spracheditor die Option Sprachen einzeln auswählen und wählen Sie aus der Sprachenliste Chinesisch und Englisch.
  2. Scannen oder öffnen Sie die Bilder.
  3. Wenn das Programm nicht alle Bereiche eines Bildes erkennt:
    • Legen Sie mit den Tools zur Bereichsbearbeitung die Bereiche fest.
    • Legen Sie Bereiche fest, die nur eine Sprache enthalten. Dafür wählen Sie die Bereiche aus und legen im Bereich Bereichseigenschaften deren Sprache fest.

Wichtig! Sie können nur für Bereiche desselben Typs eine Sprache festlegen. Haben Sie Bereiche verschiedenen Typs ausgewählt, wie beispielsweise Text und Tabelle, können Sie keine Sprache festlegen.

  1. Klicken Sie in der Hauptsymbolleiste auf die Schaltfläche Lesen.

Wenn nichteuropäische Zeichen nicht im Textfenster angezeigt werden

Wenn im Textfenster Text einer CJK-Sprache falsch angezeigt wird, haben Sie u. U. den Modus Nur Text ausgewählt.

So ändern Sie die verwendete Schriftart im Modus Nur Text:

  1. Öffnen Sie das Dialogfeld Optionen (Extras > Optionen…).
  2. Klicken Sie auf die Registerkarte Ansicht.
  3. Wählen Sie aus der Dropdown-Menüliste Verwendete Schriftarten für die Anzeige von nur Text die Option Arial Unicode MS.
  4. Klicken Sie auf OK.

Wenn dies nicht hilft und Text im Textfenster weiterhin falsch angezeigt wird, lesen Sie bitte "Wenn einige der Zeichen im Textfenster durch "?" oder "□" ersetzt werden."

Ändern der Richtung des erkannten Texts

ABBYY FineReader erkennt die Textrichtung automatisch, Sie können sie aber auch manuell festlegen.

  1. Wählen Sie im Textfenster einen oder mehrere Abschnitte aus.
  2. Klicken Sie auf die Schaltfläche in der Symbolleiste des Textfensters.

Hinweis: Sie können die Dropdown-Liste CJK-Textrichtung im Bildfenster verwenden, um vor der Erkennung die Richtung des Textes festzulegen. Weitere Informationen finden Sie unter Wenn vertikaler oder invertierter Text nicht erkannt wurde.

1/14/2020 5:26:18 PM


Please leave your feedback about this article