Werken met complex-script talen

Download

Met ABBYY FineReader kunt u ook documenten herkennen in het Arabisch, Hebreeuws, Jiddisch, Thai, Chinees, Japans en Koreaans. Er zijn wel enkele factoren waarmee u rekening moet houden als u werkt met documenten in het Chinees, Japans of Koreaans, en documenten met een combinatie van deze CJK-talen en Europese talen.

Aanbevolen lettertypen

Voor de herkenning van teksten in het Arabisch, Hebreeuws, Jiddisch, Thai, Chinees, Japans en Koreaans moet u mogelijk extra lettertypen installeren. In onderstaande tabel vindt u de aanbevolen lettertypen voor teksten in deze talen.

OCR-talen Aanbevolen lettertype
Arabisch Arial™ Unicode™ MS
Hebreeuws Arial™ Unicode™ MS
Jiddisch Arial™ Unicode™ MS
Thai

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinees (vereenvoudigd)

Chinees (traditioneel)

Japans, Koreaans

Koreaans (Hangul)

Arial™ Unicode™ MS

SimSun-lettertypen zoals:

Example SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (voor-ISO10646)

STSong

In onderstaande secties vindt u tips voor het verbeteren van de nauwkeurigheid van de herkenning.

Afbeeldingen geautomatiseerd verwerken uitschakelen

Standaard worden alle pagina's die u toevoegt aan een OCR-project automatisch herkend.

Echter, als uw document tekst in een CJK-taal gecombineerd met een Europese taal bevat, bevelen we aan om automatische paginastand-bepaling uit te schakelen en om de optie Dubbele pagina's splitsen uitsluitend te gebruiken als de pagina-afbeeldingen de juiste oriëntatie hebben (nl. niet ondersteboven gescand).

U kunt de opties Paginastand corrigeren en Linker- en rechterpagina's splitsen in- en uitschakelen op het  Afbeelding verwerken tabblad van het Opties dialoogvenster (klik op Gereedschappen > Opties... om dit dialoogvenster te openen).

Om tegenoverliggende pagina's in het Arabisch, Hebreeuws of Jiddish te splitsen, moet u eerst de overeenkomstige OCR-taal selecteren en pas daarna de Linker- en rechterpagina's splitsen optie. U kunt de oorspronkelijke paginanummering ook herstellen via de Pagina's in boek wisselen optie. Zie ook: OCR-projecten .

Als uw document een complexe structuur heeft, adviseren we u om de automatische analyse en OCR van afbeeldingen uit te schakelen en deze bewerkingen handmatig uit te voeren.

U kunt de automatische analyse en OCR van nieuw toegevoegde afbeeldingen uitschakelen op het Afbeelding verwerken tabblad van het Opties dialoogvenster (klik op Gereedschappen > Opties... om dit dialoogvenster te openen).

  1. Klik op Gereedschappen > Opties... enopen het Opties dialoogvenster.
  2. Op het Afbeelding verwerken tabblad wist u de Pagina-afbeeldingen automatisch verwerken terwijl ze worden toegevoegd aan de OCR-editor optie.
  3. Klik op OK.

Meertalige documenten herkennen

De onderstaande instructies dienen als voorbeeld en leggen uit hoe een document met zowel Engelse als Chinese tekst kan worden herkend. Documenten met andere talen kunnen op een vergelijkbare manier worden herkend.

  1. In de hoofdwerkbalk selecteert u Meer talen... uit de lijst met talen. In het Taleneditor dialoogvenster selecteert u Handmatig OCR-talen specificeren en selecteert u Chinees en Engels uit de lijst met talen.
  2. Scan uw pagina's of open uw afbeeldingen.
  3. Als het programma niet alle gebieden van een afbeelding herkent:
    • Specifeer de gebieden handmatig met de gereedschappen voor het bewerken van gebieden
    • Specificeer alle gebieden die slechts één taal bevatten en selecteer op Gebiedseigenschappen Engels of Chinees (wat van toepassing is).
      U kunt alleen voor gebieden van hetzelfde type een taal opgeven. Als u gebieden van een andere type selecteert (zoals Tekst en Tabel), kunt u geen taal opgeven.
    • Indien nodig kunt u de tekstrichting selecteren in de Tekststand vervolgkeuzelijst (zie voor meer informatie Als verticale of omgekeerde tekst niet wordt herkend)
    • Voor teksten in CJK-talen bevat het programma verschillende tekstrichtingen in de CJK tekstrichting vervolgkeuzelijst (zie voor meer informatie Gebiedseigenschappen bewerken).

Als niet-Europese tekens niet in het deelvenster Tekst worden weergegeven

Als tekst in een CJK-taak onjuist wordt weergegeven in hetTekst- deelvenster, hebt u wellicht gekozen voor de Ongecodeerde tekst modus.

Wijzig als volgt het gebruikte lettertype in de Ongecodeerde tekst modus:

  1. Klik op Gereedschappen > Opties... enopen het Opties dialoogvenster.
  2. Klik op het Gebieden en Tekst tabblad.
  3. Selecteer Arial Unicode MS uit de Lettertype voor platte tekstvervolgkeuzelijst.
  4. Klik op OK.

Als dit niet helpt en de tekst in het Tekst- venster nog steeds onjuist wordt weergegeven, raadpleegt u Er wordt een ongeldig lettertype gebruikt of sommige tekens worden vervangen door ? of □.

De richting van herkende tekst wijzigen

ABBYY FineReader herkent de tekstrichting automatisch, maar u kunt de tekstrichting ook handmatig instellen.

  1. Activeer het deelvenster Tekst.
  2. Selecteer een of meer alinea's.
  3. Klik op de knop op de werkbalk in het deelvenster Tekst.

U kunt de CJK tekstrichting vervolgkeuzelijst in het deelvenster Afbeelding gebruiken of voorafgaand aan de OCR de tekstrichting te specificeren. Zie ook: Gebiedseigenschappen bewerken.

04.03.2022 7:13:23

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.