Töötamine keerulise kirjaga keeltega

ABBYY FineReaderiga saad tuvastada dokumente, mis on araabia, heebrea, jidiši, tai, hiina, jaapani ja korea keeles. Töötades hiina, jaapani või korea keeles olevate dokumentidega või dokumentidega, milles esineb kombinatsioon neist ja Euroopa keeltest, tuleb võtta arvesse mõningaid täiendavaid tegureid.

Soovitatavad kirjatüübid

Teksti tuvastamine araabia, heebrea, jidiši, tai, hiina, jaapani ja korea keeles võib vajada täiendavate kirjatüüpide paigaldamist. Järgmises tabelis on toodud soovitatavate fontide loendid nendes keeltes kirjutatud tekstidele.

OCR-keeled Soovitatav font
Araabia Arial™ Unicode™ MS
Heebrea Arial™ Unicode™ MS
Jidiš Arial™ Unicode™ MS
Tai

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Hiina (lihtsustatud)

Hiina (traditsiooniline)

Jaapani, korea

Korea (hanguli)

Arial™ Unicode™ MS

SimSun'i fondid nagu:

Näiteks SimSun (rajaja laiendatud),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (ISO10646 jaoks)

STSong

Järgmised jaotised sisaldavad nõuandeid tuvastustäpsuse parandamiseks.

Automaatse kujutise töötlemise keelamine

Vaikimisi on kõik lehed, mida lisad OCR-projektile automaatselt tuvastatud.

Ent kui sinu dokument sisaldab hiina-, jaapani- või koreakeelset teksti koos mõne Euroopa keelega, soovitame juhul, kui kõik lehekülgede kujutised on õige suunaga (st neid ei skannitud tagurpidi), keelata lehekülje suuna automaatne tuvastamine ja kasutada vaid paarislehekülgede eraldamise suvandit.

Saad lubada/keelata Paranda lehekülje suund ja Eralda paarisleheküljed suvandid Kujutise töötlemine vahekaardil Suvandid kahekõne aknas (klõpsa Tööriistad > Suvandid... selle kahekõne akna avamiseks).

Vastastikku paiknevate araabia-, heebrea- või jidišikeelsete lehekülgede eraldamiseks vali kindlasti esmalt vastav OCR-i keel ja alles seejärel vali Eralda paarisleheküljed suvand. Samuti saad taastada algse lehekülgede numeratsiooni, valides Vaheta raamatu leheküljed suvand. Vaata ka: OCR-projektid.

Kui sinu dokumendil on keeruline struktuur, soovitame keelata kujutiste automaatse analüüsi ja OCR-i ning sooritada need toimingud käsitsi.

Äsja lisatud kujutiste automaatse analüüsi ja OCR-i saad lülitada välja Kujutise töötlemine vahekaardil Suvandid kahekõne aknas (klõpsa Tööriistad > Suvandid... selle kahekõne akna avamiseks).

  1. Klõpsa Tööriistad > Suvandid... et avada see Suvandid kahekõne aken.
  2. Vahekaardil Kujutise töötlemine tühjenda  Töötle leheküljekujutisi OCR-redaktorisse lisamisel automaatselt suvand.
  3. Klõpsa OK.

Enam kui ühes keeles kirjutatud dokumentide tuvastamine

Allolevad juhendid on antud näitena ja selgitavad, kuidas tuvastada nii inglise- kui ka hiinakeelset teksti sisaldavat dokumenti. Teisi keeli sisaldavaid dokumente saab tuvastada sarnasel viisil.

  1. Peamisel tööriistaribal vali Veel keeli... keelte loendist. Kahekõne väljal Keelteredaktor vali Määra OCRi keeled käsitsi ja vali keelte loendist hiina ja inglise keel.
  2. Skanni oma leheküljed või ava oma kujutised.
  3. Kui programm ei suuda tuvastada kõiki alasid kujutisel, toimi järgmisel viisil.
    • Määratle alad käsitsi, kasutades selleks ala redigeerimise tööriistu
    • Määratle alad, mis sisaldavad vaid ühte keelt ja kohas Ala omadused vali vastavalt vajadusele inglise või hiina.
      Keele saab määratleda vaid sama tüüpi aladele. Kui valisid erinevat tüüpi alad, näiteks Teksti ja tabeli, ei saa sa keelt määratleda.
    • Vajadusel vali teksti suund Paigutus ripploendist (üksikasju vt Kui püstist või pööratud teksti ei tuvastatud)
    • Hiina-, jaapani- ja koreakeelsete tekstide jaoks pakub programm teksti suundade valikut Hieroglüüfkirja suund ripploendist (üksikasju vt Ala atribuutide redigeerimine).

Kui tekstipaanis ei kuvata võõrmärke

Kui hiina-, jaapani- või koreakeelset teksti kuvatakse valestiTeksti paanil, oled ehk valinud Lihttekst režiimi.

Selle fondi muutmiseks, mida kasutatakse Lihttekst režiimis:

  1. Klõpsa Tööriistad > Suvandid... et avada see Suvandid kahekõne aken.
  2. Klõpsa Alad ja tekst vahekaardil.
  3. Vali Arial Unicode MS Lihtteksti font ripploendist.
  4. Klõpsa OK.

Kui see ei aidanud ja tekst, mis on Teksti aknas, kuvatakse jätkuvalt valesti, vaata Kasutatud on vale kirjatüüpi või mõned märgid on asendatud märkidega "?" või "□".

Tuvastatud teksti suuna muutmine

ABBYY FineReader tuvastab teksti suuna automaatselt, kuid teksti suuna saad määratleda ka käsitsi.

  1. Aktiveeri tekstipaan.
  2. Vali üks lõige või rohkem.
  3. Klõpsa nuppu tekstipaanil oleval tööriistaribal.

Saad kasutada Hieroglüüfkirja suund ripploendit, mis on kujutise paanis, et määratleda teksti suund enne OCR-i. Vaata ka: Ala atribuutide redigeerimine.

11/2/2018 4:19:22 PM


Please leave your feedback about this article