Como trabalhar com idiomas de script complexo

Download

Com o ABBYY FineReader, é possível reconhecer documentos em árabe, hebraico, ídiche, tailandês, chinês, japonês e coreano. Algumas considerações adicionais devem ser levadas em conta quando se trabalha com documentos em chinês, japonês ou coreano e em documentos em que é usada uma combinação de idiomas CJK e europeus.

Como instalar o suporte ao idioma

Para ser capaz de reconhecer textos escritos em árabe, hebraico, ídiche, tailandês, chinês, japonês e coreano, pode ser necessário instalar esses idiomas.

Microsoft Windows 8, Windows 7 e Windows Vista suportam esses idiomas por padrão.

Para instalar novos idiomas no Microsoft Windows XP:

  1. Clique em Iniciar na barra de tarefas.
  2. Clique em Painel de Controle > Opções regionais e de idioma.
  3. Clique na guia Idiomas e selecione as seguintes opções:
    • Instalar arquivos para script complexo e idiomas da direita para a esquerda (incluindo tailandês)

para ativar o suporte a árabe, hebraico, ídiche e tailandês

  • Instalar arquivos para idiomas do leste asiático

para ativar o suporte a japonês, chinês e coreano

  1. Clique em OK.

Fontes recomendadas

O reconhecimento de texto em árabe, hebraico, ídiche, tailandês, chinês, japonês e coreano pode exigir a instalação de fontes adicionais no Windows. A tabela a seguir relaciona as fontes recomendadas para textos nesses idiomas.

Idioma do OCR Fonte recomendada
Árabe Arial™ Unicode™ MS*
Hebraico Arial™ Unicode™ MS*
Ídiche Arial™ Unicode™ MS*
Tailandês

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chinês (simplificado),

Chinês (tradicional),

Japonês, coreano

Coreano (Hangul)

Arial™ Unicode™ MS*

Fontes SimSun

como: SimSun (Founder Extended), SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

* Esta fonte é instalada com o Microsoft Windows XP e o Microsoft Office 2000 ou versão posterior.

As seções a seguir contêm aconselhamento sobre como melhorar a precisão do reconhecimento.

Como desativar o processamento automático

Por padrão, todas as páginas adicionadas a um documento do ABBYY FineReader são reconhecidas automaticamente.

No entanto, se o documento contiver texto em um idioma CJK combinado com um idioma europeu, recomendamos desativar a detecção de orientação de página automática e usar a opção de divisão de página dupla somente se todas as imagens da página estiverem com a orientação correta (por exemplo, eles não foram digitalizados de cabeça para baixo).

As opções Detectar orientação da página e Dividir páginas opostas podem ser ativadas e desativadas na guia Digitalizar/Abrir da caixa de diálogo Opções.

Observação: para dividir páginas opostas em árabe, hebraico ou ídiche, certifique-se de selecionar o idioma de reconhecimento correspondente primeiro e só então selecionar a opção Dividir páginas opostas. Isso irá assegurar que as páginas sejam dispostas na ordem correta. Também é possível restaurar a numeração de página original selecionando a opçãoAlternar as páginas do livro. Para obter detalhes, consulte "O que é um documento do FineReader?"

Se seu documento possuir uma estrutura complexa, recomendamos desativar a análise automática e o OCR para as imagens e executar essas operações manualmente.

Para desativar a análise e o OCR automáticos:

  1. Abra a caixa de diálogo Opções (Ferramentas > Opções…).
  2. Desmarque a opção Processar automaticamente as páginas assim que elas forem adicionadas na guia Digitalizar/Abrir.
  3. Clique em OK.

Como reconhecer documentos escritos em mais de um idioma

Nas instruções abaixo, é usado um documento que contém texto em inglês e em chinês como exemplo.

  1. Na barra de ferramentas principal, selecione Mais idiomas… da lista suspensa Idiomas dos Documentos. Selecione Especificar os idiomas manualmente da caixa de diálogo Editor de idiomas e selecione chinês e inglês da lista de idiomas.
  2. Digitalize ou abra as imagens.
  3. Se o programa não conseguir detectar todas as áreas em uma imagem:
    • Especifique manualmente as áreas usando as ferramentas de edição de área.
    • Especifique todas as áreas que contêm apenas um idioma. Para fazer isso, selecione-as e especifique seu idioma no painel Propriedades de área.

Importante! O idioma só pode ser especificado para áreas do mesmo tipo. Se você selecionou áreas de diferentes tipos, como Texto e Tabela, não será possível especificar um idioma.

  1. Clique no botão Ler na barra de ferramentas principal.

Se os caracteres não-europeus não forem exibidos na janela de Texto

Se o texto em um idioma CJK for exibido incorretamente na janela de Texto, você pode ter selecionado o modo de Texto simples.

Para alterar a fonte usada no modo de Texto simples:

  1. Abra a caixa de diálogo Opções (Ferramentas > Opções…).
  2. Clique na guia Exibir.
  3. Selecione Arial Unicode MS da lista suspensa Fonte usada para exibir texto plano.
  4. Clique em OK.

Se isso não ajudar e o texto na janela de Texto continuar sendo exibido incorretamente, consulte "Se alguns caracteres forem substituídos por "?" ou "□" na janela de Texto".

Como alterar a direção do texto reconhecido

O ABBYY FineReader detecta automaticamente a direção do texto, mas você também pode especificar a direção do texto manualmente.

  1. Selecione um ou mais parágrafos na janela de Texto.
  2. Clique no botão da barra de tarefas da janela de Texto.

Observação: é possível usar a lista suspensa Direção do texto de CJK na janela de Imagem para especificar a direção do texto antes do reconhecimento. Para obter detalhes, consulte Se o texto vertical ou invertido não for reconhecido corretamente.

14.01.2020 17:26:21

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.