Arbeta med komplexa scriptspråk

Download

Med ABBYY FineReader kan du tolka dokument på arabiska, hebreiska, jiddisch, thailändska, kinesiska, japanska och koreanska. Vissa ytterligare faktorer måste tas i beaktning när du arbetar med dokument på kinesiska, japanska eller koreanska och dokument i vilka en kombination av CJK och europeiska språk används.

Rekommenderade typsnitt

Tolkning av texter på arabiska, hebreiska, jiddisch, thailändska, kinesiska, japanska och koreanska kan kräva installation av ytterligare typsnitt i Windows. Den nedanstående tabellen listar de rekommenderade typsnitten för texter på dessa språk.

OCR-språk Rekommenderat typsnitt
Arabiska Arial™ Unicode™ MS
Hebreiska Arial™ Unicode™ MS
Jiddisch Arial™ Unicode™ MS
Thailändska

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Förenklad kinesiska

Traditionell kinesiska

Japanska, koreanska

Koreanska (Hangul)

Arial™ Unicode™ MS

SimSun-typsnitt som exempelvis:

Example SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

De nedanstående avsnitten innehåller råd om hur du kan förbättra tolkningsprecisionen.

Stänga av automatisk bildbehandling

Som standard kommer alla sidor du lägger till i ett OCR-projekt tolkas automatiskt.

Om ditt dokument däremot innehåller en text på ett CJK-språk i kombination med ett europeiskt språk rekommenderar vi att du stänger av den automatiska identifieringen av sidorienteringen och dessutom att du enbart använder alternativet för att dela upp dubbla sidor om sidbilderna har rätt orientering (d.v.s. att de inte har skannats upp och ned).

Du kan aktivera/avaktivera alternativen Korrigera sidorienteringen och Dela motstående sidor på fliken Bildbehandling i dialogrutan Alternativ (klicka på Verktyg > Alternativ... för att öppna dialogrutan).

Se till att ställa in rätt tolkningsspråk innan du markerar alternativet Dela motstående sidor för att dela upp sidor mitt emot varandra med text på arabiska, hebreiska eller yiddish. Du kan också återställa den ursprungliga sidnumreringen genom att välja alternativet Byt ut boksidor. Se även: OCR-projekt.

Om ditt dokument har en komplex struktur rekommenderar vi att du stänger av den automatiska analysen och OCR-tolkningen för bilder och utför dessa åtgärder manuellt.

Du kan stänga av automatisk analys och OCR av tillagda bilder på fliken Bildbehandling av dialogrutan Alternativ (klicka på Verktyg > Alternativ... för att öppna dialogrutan).

  1. Klicka på Verktyg > Alternativ... för attöppna dialogrutan Alternativ.
  2. På verktygsmenyn Bildbehandling och rensa alternativet Bearbeta sidbilder automatiskt när de läggs till i OCR Editor.
  3. Klicka på OK.

Tolka dokument som skrivits på mer än ett språk

Instruktionerna nedan ges som ett exempel och förklarar hur man tolkar ett dokument som innehåller både engelsk och kinesisk text. Dokument som innehåller andra språk kan tolkas på ett liknande sätt.

  1. Välj Fler språk... från språklistan i huvudverktygsfältet. I dialogrutan Språkredigeraren väljer du Ange OCR-språk manuellt och sedan kinesiska och engelska från språklistan.
  2. Skanna dina sidor eller öppna dina bilder.
  3. Om programmet inte lyckas detektera alla områden på en bild:
    • Ange områden manuellt med hjälp av verktygen för områdesredigering
    • Ange valfria områden som enbart innehåller ett språk och gå in på Områdesegenskaper där du väljer engelska eller kinesiska efter behov.
      Ett språk kan bara anges för områden av samma typ. Om du väljer områden av andra typer, t.ex. Text och Tabell kommer du inte kunna ange ett språk.
    • Vid behov kan du välja textriktning i rullgardinslistan Riktning (se Om vertikal eller inverterad text inte tolkades för mer information)
    • För texter på CJK-språken ger programmet ett urval av textriktningar i rullgardinslistan Riktning för CJK-text (se "Redigera områdesegenskaper" för mer information).

Om icke-europeiska tecken inte visas i textpanelen

Om text på ett CJK-språk visas felaktigt i panelenText kan du ha valt läget Enkel text.

För att ändra typsnittet som används i läget Enkel text:

  1. Klicka på Verktyg > Alternativ... för attöppna dialogrutan Alternativ.
  2. Klicka på fliken Områden och text.
  3. Välj Arial Unicode MS från Typsnitt som använts för att visa enkel text.
  4. Klicka på OK.

Om detta inte hjälpte och texten i fönstret Text fortfarande visas felaktigt, se Om ett felaktigt typsnitt används eller något tecken ersätts med "?" eller "□".

Ändra riktningen på tolkad text

ABBYY FineReader identifierar textriktningen automatiskt, men du kan även ange den manuellt.

  1. Aktivera textpanelen.
  2. Välj ett eller flera stycken.
  3. Klicka på på verktygsfältet i textpanelen.

Du kan använda rullgardinslistan Riktning för CJK-text i bildpanelen för att ange textriktningen innan OCR-tolkningen. Se även: Redigera områdesegenskaper.

3/4/2022 7:13:28 AM

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.