Lavorare con lingue a caratteri complessi

ABBYY FineReader consente di riconoscere documenti in arabo, ebraico, yiddish, tailandese, cinese, giapponese e coreano. L'elaborazione di documenti in lingua cinese, giapponese o coreana e documenti redatti in combinazioni di lingue CJK ed europee richiede alcuni ulteriori accorgimenti.

Caratteri consigliati

Il riconoscimento di testi in lingua araba, ebraica, yiddish, tailandese, cinese, giapponese e coreana potrebbe richiedere l'installazione di alcuni caratteri aggiuntivi. Di seguito sono elencati i caratteri consigliati per i testi redatti in queste lingue.

Lingue OCR Carattere consigliato
Arabo Arial™ Unicode™ MS
Ebraico Arial™ Unicode™ MS
Yiddish Arial™ Unicode™ MS
Tailandese

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Cinese (semplificato)

Cinese (tradizionale)

Giapponese, coreano

Coreano (Hangul)

Arial™ Unicode™ MS

Caratteri SimSun come:

Esempio SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (per ISO10646)

STSong

Le sezioni sottostanti forniscono consigli su come migliorare l'accuratezza del riconoscimento.

Disattivare l'elaborazione automatica delle immagini

Per impostazione predefinita, le pagine aggiunte a un progetto OCR vengono automaticamente riconosciute.

Se però il documento contiene testo redatto in una combinazione di lingue CJK e lingue europee, si consiglia di disattivare il rilevamento automatico dell'orientamento della pagina. È inoltre consigliabile selezionare l'opzione per la divisione delle pagine doppie solo se tutte le immagini delle pagine sono orientate correttamente (ovvero non sono state digitalizzate capovolte).

È possibile attivare/disattivare le opzioni Correggi orientamento pagina e Dividi pagine adiacenti nella scheda  Elaborazione immagini della finestra di dialogo Opzioni (fare clic su Strumenti > Opzioni... per aprire questa finestra di dialogo).

Per dividere pagine adiacenti in arabo, ebraico o yiddish selezionare la lingua OCR corrispondente prima di selezionare l'opzione Dividi pagine adiacenti. È inoltre possibile ripristinare la numerazione originale delle pagine selezionando l'opzione Scambia pagine libro. Consultare anche: Progetti OCR.

Se il documento presenta una struttura complessa, si consiglia di disattivare l'analisi e il riconoscimento automatici per le immagini ed eseguire invece manualmente queste operazioni.

È possibile disattivare l'analisi e il riconoscimento automatici delle nuove immagini nella scheda Elaborazione immagini della finestra di dialogo Opzioni (fare clic su Strumenti > Opzioni... per aprire questa finestra di dialogo).

  1. Fare clic su Strumenti > Opzioni... per aprire la finestra di dialogo Opzioni.
  2. Nella scheda Elaborazione immagini deselezionare l'opzione Elabora automaticamente le immagini pagina aggiunte all'Editor OCR.
  3. Fare clic su OK.

Riconoscimento di documenti scritti in più di una lingua

Le istruzioni di seguito sono riportate a titolo esemplificativo e forniscono istruzioni su come eseguire il riconoscimento di un documento che contiene testo sia in inglese, sia in cinese. È possibile eseguire il riconoscimento di documenti contenenti altre lingue in maniera analoga.

  1. Nella barra degli strumenti principale, selezionare Altre lingue... dall'elenco delle lingue. Nella finestra di dialogo Editor lingue selezionare Specifica manualmente le lingue OCR e selezionare cinese e inglese dall'elenco delle lingue.
  2. Digitalizzare le pagine o aprire le immagini.
  3. Se il programma non è in grado di rilevare tutte le aree di un'immagine:
    • Specificare manualmente le aree usando gli strumenti di modifica aree
    • Specificare le aree che contengono una sola lingua e in Proprietà area selezionare la lingua corrispondente, inglese o cinese.
      È possibile specificare la lingua solo per aree dello stesso tipo. Se si selezionano lingue di diverso tipo, quali Testo e Tabella, non sarà possibile specificare la lingua.
    • Se necessario, selezionare la direzione del testo dall'elenco a discesa Orientamento (per informazioni dettagliate consultare Testo verticale o invertito non riconosciuto correttamente)
    • Per i testi nelle lingue CJK, il programma fornisce una selezione di orientamenti per il testo nell'elenco a discesa Orientamento del testo CJK (per informazioni dettagliate consultare Modificare le proprietà delle aree).

Caratteri non europei non visualizzati nel riquadro Testo

Se il testo in una lingua CJK viene visualizzato in maniera non corretta nel riquadroTesto è possibile che sia stata selezionata la modalità Testo semplice.

Per cambiare il carattere utilizzato in modalità Testo semplice:

  1. Fare clic su Strumenti > Opzioni... per aprire la finestra di dialogo Opzioni.
  2. Fare clic sulla scheda Aree e testo.
  3. Selezionare Arial Unicode MS dall'elenco a discesa Carattere usato per visualizzare il testo normale.
  4. Fare clic su OK.

Se questa operazione non corregge il problema e il testo nella finestra Testo è ancora visualizzato in maniera non corretta, consultare Tipo di carattere non corretto o alcuni caratteri sostituiti dai simboli "?" o "□".

Cambiare l'orientamento del testo riconosciuto

ABBYY FineReader rileva automaticamente l'orientamento del testo, ma è anche possibile specificarlo manualmente.

  1. Attivare il riquadro Testo.
  2. Selezionare uno o più paragrafi.
  3. Fare clic sul pulsante sulla barra degli strumenti del riquadro Testo.

È possibile utilizzare l'elenco a discesa Orientamento del testo CJK del riquadro Immagine per specificare la direzione del testo prima di eseguire il riconoscimento OCR. Consultare anche: Modificare le proprietà delle aree.

11/2/2018 4:19:28 PM


Please leave your feedback about this article