Como trabalhar com idiomas de script complexo

Com o ABBYY FineReader, é possível reconhecer documentos em árabe, hebraico, ídiche, tailandês, chinês, japonês e coreano. Algumas considerações adicionais devem ser levadas em conta quando se trabalha com documentos em chinês, japonês ou coreano e em documentos em que é usada uma combinação de idiomas CJK e europeus.

Como instalar o suporte ao idioma

Para ser capaz de reconhecer textos escritos em árabe, hebraico, ídiche, tailandês, chinês, japonês e coreano, pode ser necessário instalar esses idiomas.

Microsoft Windows 8, Windows 7 e Windows Vista suportam esses idiomas por padrão.

Para instalar novos idiomas no Microsoft Windows XP:

  1. Clique em Iniciar na barra de tarefas.
  2. Clique em Painel de Controle > Opções regionais e de idioma.
  3. Clique na guia Idiomas e selecione as seguintes opções:
    • Instalar arquivos para script complexo e idiomas da direita para a esquerda (incluindo tailandês)

para ativar o suporte a árabe, hebraico, ídiche e tailandês

  • Instalar arquivos para idiomas do leste asiático

para ativar o suporte a japonês, chinês e coreano

  1. Clique em OK.

Fontes recomendadas

O reconhecimento de texto em árabe, hebraico, ídiche, tailandês, chinês, japonês e coreano pode exigir a instalação de fontes adicionais no Windows. A tabela a seguir relaciona as fontes recomendadas para textos nesses idiomas.

Idioma do OCR Fonte recomendada
Árabe Arial™ Unicode™ MS*
Hebraico Arial™ Unicode™ MS*
Ídiche Arial™ Unicode™ MS*
Tailandês

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinês (simplificado),

Chinês (tradicional),

Japonês, coreano

Coreano (Hangul)

Arial™ Unicode™ MS*

Fontes SimSun

como: SimSun (Founder Extended), SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

* Esta fonte é instalada com o Microsoft Windows XP e o Microsoft Office 2000 ou versão posterior.

As seções a seguir contêm aconselhamento sobre como melhorar a precisão do reconhecimento.

Como desativar o processamento automático

Por padrão, todas as páginas adicionadas a um documento do ABBYY FineReader são reconhecidas automaticamente.

No entanto, se o documento contiver texto em um idioma CJK combinado com um idioma europeu, recomendamos desativar a detecção de orientação de página automática e usar a opção de divisão de página dupla somente se todas as imagens da página estiverem com a orientação correta (por exemplo, eles não foram digitalizados de cabeça para baixo).

As opções Detectar orientação da página e Dividir páginas opostas podem ser ativadas e desativadas na guia Digitalizar/Abrir da caixa de diálogo Opções.

Observação: para dividir páginas opostas em árabe, hebraico ou ídiche, certifique-se de selecionar o idioma de reconhecimento correspondente primeiro e só então selecionar a opção Dividir páginas opostas. Isso irá assegurar que as páginas sejam dispostas na ordem correta. Também é possível restaurar a numeração de página original selecionando a opçãoAlternar as páginas do livro. Para obter detalhes, consulte "O que é um documento do FineReader?"

Se seu documento possuir uma estrutura complexa, recomendamos desativar a análise automática e o OCR para as imagens e executar essas operações manualmente.

Para desativar a análise e o OCR automáticos:

  1. Abra a caixa de diálogo Opções (Ferramentas > Opções…).
  2. Desmarque a opção Processar automaticamente as páginas assim que elas forem adicionadas na guia Digitalizar/Abrir.
  3. Clique em OK.

Como reconhecer documentos escritos em mais de um idioma

Nas instruções abaixo, é usado um documento que contém texto em inglês e em chinês como exemplo.

  1. Na barra de ferramentas principal, selecione Mais idiomas… da lista suspensa Idiomas dos Documentos. Selecione Especificar os idiomas manualmente da caixa de diálogo Editor de idiomas e selecione chinês e inglês da lista de idiomas.
  2. Digitalize ou abra as imagens.
  3. Se o programa não conseguir detectar todas as áreas em uma imagem:
    • Especifique manualmente as áreas usando as ferramentas de edição de área.
    • Especifique todas as áreas que contêm apenas um idioma. Para fazer isso, selecione-as e especifique seu idioma no painel Propriedades de área.

Importante! O idioma só pode ser especificado para áreas do mesmo tipo. Se você selecionou áreas de diferentes tipos, como Texto e Tabela, não será possível especificar um idioma.

  1. Clique no botão Ler na barra de ferramentas principal.

Se os caracteres não-europeus não forem exibidos na janela de Texto

Se o texto em um idioma CJK for exibido incorretamente na janela de Texto, você pode ter selecionado o modo de Texto simples.

Para alterar a fonte usada no modo de Texto simples:

  1. Abra a caixa de diálogo Opções (Ferramentas > Opções…).
  2. Clique na guia Exibir.
  3. Selecione Arial Unicode MS da lista suspensa Fonte usada para exibir texto plano.
  4. Clique em OK.

Se isso não ajudar e o texto na janela de Texto continuar sendo exibido incorretamente, consulte "Se alguns caracteres forem substituídos por "?" ou "□" na janela de Texto".

Como alterar a direção do texto reconhecido

O ABBYY FineReader detecta automaticamente a direção do texto, mas você também pode especificar a direção do texto manualmente.

  1. Selecione um ou mais parágrafos na janela de Texto.
  2. Clique no botão da barra de tarefas da janela de Texto.

Observação: é possível usar a lista suspensa Direção do texto de CJK na janela de Imagem para especificar a direção do texto antes do reconhecimento. Para obter detalhes, consulte Se o texto vertical ou invertido não for reconhecido corretamente.

1/14/2020 5:26:21 PM


Please leave your feedback about this article