Jeśli drukowany dokument zawiera niestandardowe czcionki

Tryb douczania ulepsza jakość OCR dokumentów zawierających czcionki dekoracyjne lub znaki specjalne (np. znaki matematyczne).

Uwaga: nie zaleca się używania trybu douczania w innych przypadkach, ponieważ polepszenie jakości rozpoznawania będzie nieznaczne w porównaniu z ilością czasu i wysiłku, jakie trzeba poświęcić na douczanie.

W trybie douczania tworzony jest wzorzec, który może być użyty przy wykonywaniu OCR na całym tekście.

Używanie wzorców użytkownika

Aby użyć wzorca przy rozpoznawaniu dokumentu:

  1. Otwórz okno dialogowe Opcje (Narzędzia > Opcje…), a następnie kliknij kartę Rozpoznane.
  2. W obszarze Douczanie wybierz opcję Użyj tylko wzorca użytkownika.

Uwaga: w przypadku wybrania opcji Użyj wzorców wbudowanych i wzorców użytkownika program ABBYY FineReader 12 podczas rozpoznawania OCR będzie korzystać ze wzorców użytkownika i wzorców dostarczonych z programem.

  1. Kliknij przycisk Edytor wzorców….
  2. W oknie dialogowym Edytor wzorców wybierz żądany wzorzec, a następnie kliknij przycisk OK.
  3. W oknie głównym programu ABBYY FineReader kliknij przycisk Rozpoznaj.

Tworzenie i douczanie wzorca użytkownika

Aby douczyć wzorzec użytkownika rozpoznawania nowych znaków i ligatur:

  1. Otwórz okno dialogowe Opcje (Narzędzia > Opcje…), a następnie kliknij kartę Rozpoznane.
  2. W grupie Douczanie wybierz opcję Użyj wzorców wbudowanych i wzorców użytkownika lub Użyj tylko wzorca użytkownika.
  3. Wybierz opcję Rozpoznaj z douczaniem.
  4. Kliknij przycisk Edytor wzorców….

Uwaga: funkcja douczania wzorców jest niedostępna dla języków azjatyckich.

  1. W oknie dialogowym Edytor wzorców kliknij przycisk Nowy….
  2. Zostanie otwarte okno dialogowe Utwórz wzorzec. Wpisz nazwę wzorca użytkownika i kliknij przycisk OK.
  3. Zamknij okna dialogowe Edytor wzorców i Opcje kliknięciem przycisku OK w każdym z nich.
  4. Na pasku narzędzi u góry okna Obraz kliknij przycisk Rozpoznaj.

Jeśli program ABBYY FineReader napotka nieznany znak, zostanie on wyświetlony w oknie dialogowym Douczanie wzorca.

  1. Naucz program rozpoznawać nowe znaki i ligatury.

Ligatura to kombinacja dwóch lub trzech liter, które są ze sobą „sklejone” (na przykład fi, fl, ffi itd.), przez co programowi trudno jest je rozdzielić. W rzeczywistości lepsze wyniki uzyska się, jeśli takie znaki zostaną potraktowane jako pojedyncze — chociaż złożone — znaki.

Uwaga:słowa w tekście wydrukowane pogrubioną czcionką lub kursywą lub w indeksie górnym bądź dolnym mogą zostać zachowane w rozpoznanym tekście przez wybranie odpowiednich opcji w obszarze Efekty.

Aby powrócić do uprzednio douczanego znaku, kliknij przycisk Powrót. Ramka zostanie przeniesiona do poprzedniej lokalizacji, a ostatnio douczone powiązanie „obrazu znaku ze znakiem klawiatury” zostanie usunięte z wzorca. Przycisk Powrót służy do poruszania się między znakami w słowie i nie umożliwia przejścia do innego słowa.

Ważne!

  • Można douczać program ABBYY FineReader rozpoznawania jedynie tych znaków, które znajdują się w alfabecie rozpoznawanego języka. W przypadku douczania programu w zakresie rozpoznawania znaków, których nie można wprowadzić przy użyciu klawiatury, można wprowadzić połączenie dwóch znaków w celu oznaczenia tych nieistniejących znaków lub skopiować znak z okna dialogowego Wstaw znak (aby je otworzyć, kliknij przycisk ).
  • Każdy wzorzec może zawierać do 1000 nowych znaków. Tym niemniej nie należy tworzyć zbyt wielu ligatur, ponieważ może to negatywnie wpłynąć na jakość rozpoznawania.

Wybieranie wzorca użytkownika

Program ABBYY FineReader umożliwia używanie wzorców w celu polepszenia jakości rozpoznawania

  1. W menu Narzędzia kliknij polecenie Edytor wzorców….
  2. W otwartym oknie dialogowym Edytor wzorców wybierz odpowiedni wzorzec z listy i kliknij przycisk Uaktywnij.

Kilka istotnych informacji, które warto mieć na uwadze:

  1. Program ABBYY FineReader nie rozróżnia niektórych znaków, traktowanych jako różne. Obrazy tych znaków są rozpoznawane jako jeden i ten sam znak. Na przykład apostrofy: ('), (’) oraz (‘) są zachowywane w ramach wzorca jako jeden znak — zwykły apostrof. Dlatego w rozpoznanym tekście zawsze będzie występował apostrof jednego typu, nawet jeśli zostanie przeprowadzone douczanie systemu w zakresie rozpoznawania wszystkich typów.
  2. W przypadku obrazów niektórych znaków program ABBYY FineReader wybierze odpowiedni znak z klawiatury w oparciu o kontekst. Obraz małego okręgu na przykład zostanie rozpoznany jako litera O, gdy w jego otoczeniu będą znajdować się litery, a jako 0 — w przypadku gdy sąsiaduje z cyframi.
  3. Wzorca należy używać tylko do rozpoznawania dokumentów z taką samą czcionką, rozmiarem czcionki i rozdzielczością, w jakiej zostało przeprowadzone douczanie wzorca.
  4. Aby móc później użyć wzorca, należy go zapisać w pliku. Szczegółowe informacje znajdują się w części „Co to jest dokument programu FineReader”?
  5. Przy rozpoznawaniu tekstów z inną czcionką należy wyłączyć wzorzec użytkownika, korzystając z polecenia Narzędzia > Opcje… przez wybranie opcji Użyj tylko wzorców wbudowanych. > Rozpoznane.

Edytowanie wzorca użytkownika

Przed uruchomieniem rozpoznawania można zmienić nowo utworzony wzorzec. Wzorzec, w którym zostało nieprawidłowo przeprowadzone douczanie, może pogorszyć jakość rozpoznawania OCR. Wzorzec powinien zawierać jedynie całe litery lub ligatury. Znaki z obciętymi brzegami i nieprawidłowymi dopasowaniami powinny zostać usunięte z wzorca.

  1. W menu Narzędzia kliknij polecenie Edytor wzorców….
  2. Wyświetlone zostanie okno dialogowe Edytor wzorców. Wskaż odpowiedni wzorzec i kliknij przycisk Edytuj….
  3. W oknie dialogowym Wzorzec użytkownika wybierz odpowiedni znak i kliknij przycisk Właściwości….

W otwartym oknie dialogowym:

  • W polu Znak wprowadź literę odpowiadającą znakowi.
  • W polu Efekt określ odpowiedni efekt czcionki (pogrubienie, kursywa, indeks górny, indeks dolny).

Aby usunąć znak, który został błędnie douczony, w oknie dialogowym Wzorzec użytkownika kliknij przycisk Usuń.

14.01.2020 17:26:20


Please leave your feedback about this article