Trabalhando com idiomas de script complexo

Download

Com o ABBYY FineReader, é possível reconhecer documentos em árabe, hebraico, iídiche, tailandês, chinês, japonês e coreano. Alguns fatores adicionais devem ser considerados quando se trabalha com documentos em chinês, japonês ou coreano e com documentos em que é utilizada uma combinação de idiomas CJK e europeus.

Fontes recomendadas

Reconhecimento de texto em árabe, hebraico, iídiche, tailandês, chinês, japonês e coreano pode exigir a instalação de fontes adicionais. A tabela abaixo lista as fontes recomendadas para textos nesses idiomas.

Idiomas OCR Fonte recomendada
Árabe Arial™ Unicode™ MS
Hebraico Arial™ Unicode™ MS
Iídiche Arial™ Unicode™ MS
Tailandês

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinês (simplificado)

Chinês (tradicional)

Japonês, Coreano,

Coreano (Hangul)

Arial™ Unicode™ MS

Fontes SimSum, como:

Example SimSun (fundador estendido),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

As seções abaixo contêm conselhos para melhorar a precisão do reconhecimento.

Desabilitando o processamento automático de imagens

Por padrão, todas as páginas que você adicionar a um Projeto OCR são reconhecidas automaticamente.

No entanto, se o documento tiver texto em um idioma CJK combinado com um idioma europeu, recomendamos desabilitar a detecção automática de orientação de página e usar a opção de divisão de página dupla apenas se todas as imagens da página tiverem a orientação correta (por exemplo, elas não foram digitalizados de cabeça para baixo).

É possível habilitar/desabilitar as opções Corrigir orientação de página e Dividir páginas opostas na guia Processamento de imagem da caixa de diálogo Opções (clique em Ferramentas > Opções... para abrir esta caixa de diálogo).

Para dividir páginas duplas em iídiche, hebraico ou árabe, certifique-se de, primeiro, selecionar o idioma OCR correspondente primeiro e, somente em seguida, selecione a opção Dividir páginas opostas. Também é possível restaurar a numeração da página original ao selecionar a opção Alternar as páginas do livro. Veja também: Projetos OCR.

Se o documento tiver uma estrutura complexa, recomendamos desabilitar a análise e OCR automáticos para imagens e executar essas operações manualmente.

É possível desligar a análise automática e o OCR das imagens recém incluídas na guia Processamento de imagem da caixa de diálogo Opções (clique em Ferramentas > Opções... para abrir esta caixa de diálogo).

  1. Clique em Ferramentas > Opções... paraabrir a caixa de diálogo Opções.
  2. Na guia Processamento de imagem, desmarque a opção  Processar páginas automaticamente conforme elas são adicionadas ao Editor OCR.
  3. Clique em OK.

Reconhecendo documentos escritos em mais de um idioma

As instruções abaixo são fornecidas como um exemplo e explicam como reconhecer um documento que contém texto em inglês e em chinês. Documentos que contêm outros idiomas podem ser reconhecidos de forma semelhante.

  1. Na barra de ferramentas principal, selecione Mais idiomas... na lista de idiomas. Na lista suspensa Editor de idiomas selecione Especificar os idiomas de OCR manualmente e selecione chinês e inglês na lista de idiomas.
  2. Digitalize suas páginas ou abra as imagens.
  3. Se o programa não detectar todas as áreas em uma imagem:
    • Especifique as áreas manualmente usando as ferramentas de edição de área
    • Especifique todas as áreas que contêm apenas um idioma e em Propriedades de área selecione inglês ou chinês conforme adequado.
      Apenas um idioma pode ser especificado para áreas do mesmo tipo. Se você selecionou tipos de áreas diferentes, tais como Texto e Tabela não será possível especificar um idioma.
    • Se necessário, selecione a direção do texto na lista suspensa Orientação (para detalhes, consulte Se texto vertical ou invertido não for reconhecido)
    • Para textos em idiomas CJK, o programa oferece uma seleção das direções de texto na lista do menu suspenso Direção do texto de CJK (para detalhes, consulte Editando propriedades de área).

Se caracteres não-europeus não forem exibidos no painel de texto

Se o texto em um idioma CJK é exibido incorretamente no painelTexto você pode ter selecionado o modo Texto sem formatação.

Para alterar a fonte usada no Texto sem formatação modo:

  1. Clique em Ferramentas > Opções... paraabrir a caixa de diálogo Opções.
  2. Clique na guia Áreas e texto.
  3. Selecione Arial Unicode MS, na lista suspensa Fonte usada para exibir texto simples lista suspensa.
  4. Clique em OK.

Se isso não ajudar e o texto na janela Texto ainda for exibido incorretamente, consulte Fonte incorreta usada ou alguns caracteres são substituídos com "?" ou "□".

Alterando a direção do texto reconhecido

O ABBYY FineReader detecta automaticamente a direção do texto, mas você também pode especificar a direção do texto manualmente.

  1. Ative o painel Texto.
  2. Selecione um ou mais parágrafos.
  3. Clique no botão na barra de ferramentas do painel Texto.

É possível usar a lista suspensa Direção do texto de CJK no painel Imagem para especificar a direção do texto antes do OCR. Veja também: Editando propriedades de área.

04.03.2022 7:13:24

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.