Arbejde med komplekse scriptsprog

Med ABBYY FineReader kan du genkende dokumenter på arabisk, hebraisk, jiddisch, thai, kinesisk, japansk og koreansk. Nogle yderligere overvejelser skal tages i betragtning, når du arbejder med dokumenter på kinesisk, japansk eller koreansk og med dokumenter, hvor en kombination af CJK og europæiske sprog bruges.

Anbefalede skrifttyper

Genkendelse af tekst på arabisk, hebraisk, jiddisch, thai, kinesisk, japansk og koreansk kan kræve installation af yderligere skrifttyper. Nedenstående tabel angiver de anbefalede skrifttyper for tekster på disse sprog.

OCR-sprog Anbefalet skrifttype
Arabisk Arial™ Unicode™ MS
Hebraisk Arial™ Unicode™ MS
Yiddish Arial™ Unicode™ MS
Thai

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Kinesisk (forenklet)

Kinesisk (traditionelt)

Japansk, koreansk

Koreansk (Hangul)

Arial™ Unicode™ MS

SimSun skrifttyper, såsom:

Eksempel SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

Afsnittene nedenfor indeholder råd om at forbedre genkendelsens nøjagtighed.

Deaktivering af automatisk billedbehandling

Som standard bliver alle sider, som du tilføjer til et OCR-projekt genkendt automatisk.

Men, hvis dokumentet indeholder en tekst i et CJK-sprog kombineret med et europæisk sprog, anbefaler vi at deaktivere automatisk registrering af sideretning og kun at bruge indstillingen til opdeling af dobbeltsider, hvis alle sidebillederne har korrekt retning (dvs. at de ikke er scannet oppefra og ned).

Du kan aktivere eller deaktivere Korrekt sideorientering og Opdel modstående sider mulighederne på Billedbehandling fanen i Indstillinger dialogboksen (klik på Redskaber > Indstillinger... for at åbne denne dialogboks).

For at opdele modstående sider på arabisk, hebraisk eller jiddisch skal du sørge for at vælge det tilsvarende OCR-sprog først og først derefter vælge Opdel modstående sider indstillingen. Du kan også gendanne den originale sidenummerering ved at vælge Udskift bogsider indstillingen. Se også: OCR-projekter.

Hvis dit dokument har en kompleks struktur, anbefaler vi deaktivering af automatisk analyse og OCR for billeder, og at disse handlinger udføres manuelt.

Du kan deaktivere automatisk analyse og OCR af nyligt tilføjede billeder på Billedbehandling fanen i Indstillinger dialogboksen (klik på Redskaber > Indstillinger... for at åbne denne dialogboks).

  1. Klik Redskaber > Indstillinger... for atåbne. Indstillinger dialogboksen.
  2. Billedbehandling fanen, skal man rydde Behandl sidebilleder automatisk, eftersom de tilføjes OCR Editor indstillingen.
  3. Klik OK.

Genkendelse af dokumenter, der er skrevet på mere end et sprog

Vejledningen nedenfor gives som et eksempel og forklarer, hvordan man genkender et dokument, der indeholder både engelsk og kinesisk tekst. Dokumenter der indeholder andre sprog kan genkendes på en lignende måde.

  1. På hovedværktøjslinjen skal du klikker på Flere sprog... fra listen over sprog. I Sprogredigering dialogboksen, vælg Angiv OCR-sprog manuelt og vælg kinesisk og engelsk fra listen over sprog.
  2. Scan dine sider eller åbn dine billeder.
  3. Hvis programmet ikke kan finde alle områderne på et billede:
    • Angiv områder manuelt ved hjælp af redigeringsværktøjerne for områder
    • Angiv de områder, som kun indeholder ét sprog og Egenskaber for område vælg engelsk eller kinesisk, som passende.
      Et sprog kan kun angives i områder af samme type. Hvis du valgte områder af forskellige typer, såsom Tekstområde og Tabel, vil du ikke være i stand til at angive et sprog.
    • Om nødvendigt kan du vælge tekstretning fra Retning rullelisten (for detaljer, se Hvis lodret eller inverteret tekst ikke blev genkendt)
    • For teksterne på CJK-sprog giver programmet mulighed for at vælge tekstretninger på Retning for CJK-tekst rullelisten (for detaljer, se Redigering af områdeegenskaber).

Hvis ikke-europæiske tegn ikke vises på ruden Tekst

Hvis teksten i en CJK-sprog vises forkert på rudenTekstområde , har du muligvis valgt Almindelig tekst tilstand.

For at ændre skrifttypen der bruges i Almindelig tekst tilstand.

  1. Klik Redskaber > Indstillinger... for atåbne . Indstillinger dialogboksen.
  2. Klik på Områder og Tekst fanen.
  3. Vælg Arial Unicode MS fra Skrifttype brugt til at vise almindelig tekst rullelisten.
  4. Klik OK.

Hvis dette ikke hjælper, og teksten i vinduet Tekstområde stadig vises forkert, så se Forkert skrifttype bruges eller nogle tegn bliver udskiftet med "?" eller "□".

Valg af retning af genkendt tekst

ABBYY FineReader registrerer tekstretning automatisk, men du kan også angive retningen manuelt.

  1. Aktiver tekstruden.
  2. Valg af en eller flere paragraffer.
  3. Klik på knappen på værktøjslinjen i tekstruden.

Du kan bruge Retning for CJK-tekst rullelisten på ruden Billede til at angive retningen for tekst før OCR. Se også: Redigering af områdeegenskaber.

11/2/2018 4:19:14 PM


Please leave your feedback about this article