Nếu tài liệu in của bạn chứa phông chữ phi tiêu chuẩn

Nếu tài liệu bạn muốn nhận dạng chứa các phông chữ trang trí hoặc ký tự đặc biệt (ví dụ như các ký hiệu toán học), bạn nên sử dụng chế độ lập mẫu để cải thiện độ chính xác nhận dạng.

Bạn không nên sử dụng chế độ lập mẫu trong các trường hợp khác, vì kết quả thu được về chất lượng nhận dạng sẽ không đáng kể so với thời gian và công sức bạn bỏ ra để lập mẫu.

Trong chế độ lập mẫu, một mẫu người dùng được tạo, có thể được sử dụng khi thực hiện OCR trên toàn bộ văn bản.

Sử dụng mẫu người dùng

Để sử dụng một mẫu người dùng để nhận dạng tài liệu:

  1. Nhấp Công cụ > Tùy chọn... để mở Tùy chọn hộp thoại và nhấp vào OCR.
  2. Chọn Sử dụng mẫu người dùng tùy chọn.
    Nếu Sử dụng mẫu có sẵn tùy chọn bên dưới Sử dụng mẫu người dùng tùy chọn được lựa chọn, ABBYY FineReader sẽ sử dụng các mẫu có sẵn cùng với bất cứ mẫu người dùng nào mà bạn tạo.
  3. Nhấp vào Trình biên tập mẫu... nút.
  4. Trong Trình biên tập mẫu hộp thoại, chọn một mẫu và nhấp OK.
  5. Nhấp vào nút trên thanh công cụ ở đầu cửa sổ OCR Editor.

Tạo và lập mẫu người dùng

Để lập mẫu nhận dạng riêng để nhận dạng các ký tự và chữ dính mới:

  1. Nhấp Công cụ > Tùy chọn... để mở Tùy chọn hộp thoại và nhấp vào OCR.
  2. Chọn Đào tạo để nhận dạng ký tự và chữ dính mới tùy chọn.
    Nếu Sử dụng mẫu có sẵn tùy chọn bên dưới Đào tạo để nhận dạng ký tự và chữ dính mới tùy chọn được lựa chọn, ABBYY FineReader sẽ sử dụng các mẫu có sẵn cùng với bất cứ mẫu người dùng nào mà bạn tạo.
  3. Nhấp vào Trình biên tập mẫu... nút.
    Lập mẫu không được hỗ trợ cho ngôn ngữ châu Á.
  4. Trong Trình biên tập mẫu hộp thoại, nhấp vào Mới... nút.
  5. Trong Tạo mẫu hộp thoại, chỉ định tên cho mẫu mới và nhấp OK.
  6. Nhấp OK trong Trình biên tập mẫu hộp thoại rồi nhấp OK trong Tùy chọn hộp thoại.
  7. Nhấp vào trên thanh công cụ ở đầu ngăn Hình ảnh.
    Nếu chương trình gặp một ký tự không nhận dạng được, Đào tạo về mẫu chữ hộp thoại sẽ mở và hiển thị ký tự này.
  8. Hướng dẫn chương trình đọc charactersligatures.
    Chữ dính là tổ hợp của hai hay ba ký tự bị "dính vào nhau" (ví dụ: fi, fl, ffi, v.v..) và làm cho chương trình khó tách riêng. Trên thực tế, có thể thu được kết quả tốt hơn bằng cách coi chúng là các ký tự ghép.
    Các từ được in kiểu in đậm hoặc in nghiêng hoặc các từ trong ký tự trên đầu/ký tự dưới chân có thể được giữ lại trong văn bản nhận dạng bằng cách chọn các tùy chọn tương ứng trong Hiệu ứng.
    Để quay lại ký tự đã lập mẫu trước đó, nhấp vào Quay lại nút. Khung sẽ chuyển tới vị trí trước và cặp đôi "hình ảnh ký tự - ký tự bàn phím" được lập mẫu gần nhất sẽ bị xóa khỏi mẫu. Ngăn Quay lại điều hướng giữa các ký tự của một từ và sẽ không điều hướng giữa các từ.

Quan trọng!

  • Bạn chỉ có thể lập mẫu cho ABBYY FineReader 14 đọc các ký tự có trong bảng chữ cái của ngôn ngữ OCR. Để lập mẫu cho chương trình đọc các ký tự không thể nhập từ bàn phím, sử dụng kết hợp hai ký tự để biểu thị những ký tự không tồn tại này hoặc sao chép ký tự mong muốn từ Chèn ký tự hộp thoại (nhấp  để mở hộp thoại này).
  • Mỗi mẫu có thể có lên đến 1.000 ký tự mới. Tuy nhiên, hãy tránh tạo quá nhiều chữ dính, vì điều này có thể ảnh hưởng xấu tới chất lượng OCR.

Chọn mẫu người dùng

ABBYY FineReader cho phép bạn sử dụng các mẫu để cải thiện chất lượng OCR.

  1. Nhấp Công cụ > Trình biên tập mẫu....
  2. Trong Trình biên tập mẫu hộp thoại, chọn một trong các mẫu trong danh sách và nhấp vào Đặt mẫu hiện hoạt nút.

Một số điểm quan trọng cần ghi nhớ:

  1. Đôi khi chương trình sẽ không phân biệt giữa các ký tự gần giống nhau hoàn toàn và nhận dạng chúng là một ký tự và như nhau. Ví dụ: dấu ngoặc thẳng ('), trái (‘) và phải (’) sẽ được lưu trữ trong một mẫu dưới dạng một ký tự duy nhất (dấu ngoặc thẳng). Như vậy đồng nghĩa với dấu ngoặc trái và phải sẽ không bao giờ được sử dụng trong văn bản được nhận dạng, kể cả khi bạn cố gắng lập mẫu cho chúng.
  2. Đối với một số hình ảnh ký tự, ABBYY FineReader 14 sẽ chọn ký tự bàn phím tương ứng dựa trên ngữ cảnh xung quanh. Ví dụ: hình ảnh hình tròn nhỏ sẽ được nhận dạng là chữ O nếu có các chữ cái ngay bên cạnh nó và là số 0 nếu có các chữ số bên cạnh nó.
  3. Mẫu chỉ có thể được sử dụng cho các tài liệu có phông chữ, cỡ phông và độ phân giải như tài liệu được dùng để tạo mẫu.
  4. Bạn có thể lưu mẫu của bạn vào một tệp và sử dụng trong các dự án OCR khác. Xem thêm: Các dự án OCR.
  5. Để nhận dạng văn bản được thiết lập trong phông chữ khác, đảm vô hiệu mẫu người dùng. Để thực hiện việc này, nhấp Công cụ > Tùy chọn... để mở Tùy chọn hộp thoại, nhấp vào OCR và chọn tùy chọn Sử dụng mẫu có sẵn.

Chỉnh sửa mẫu người dùng

Bạn có thể muốn chỉnh sửa mẫu mới tạo của mình trước khi khởi chạy quy trình OCR. Mẫu được lập mẫu không chính xác có thể ảnh hưởng xấu đến chất lượng OCR. Một mẫu chỉ nên chứa toàn bộ là ký tự hoặc chữ dính. Các ký tự bị cắt mép và ký tự có cặp đôi chữ cái không chính xác cần được xóa khỏi mẫu.

  1. Nhấp Công cụ > Trình biên tập mẫu....
  2. Trong Trình biên tập mẫu hộp thoại, chọn mẫu bạn muốn chỉnh sửa và nhấp vào Chỉnh sửa... nút.
  3. Trong Mẫu chữ của người dùng hộp thoại, chọn một ký tự và nhấp vào Thuộc tính... nút.

Trong hộp thoại mở ra:

  • Trong Ký tự trường, nhập chữ cái tương ứng với ký tự.
  • Trong trường Hiệu ứng, chỉ định hiệu ứng phông chữ mong muốn (in đậm, in nghiêng, ký tự trên đầu hoặc ký tự dưới chân).

Để xóa ký tự đã được lập mẫu không chính xác, nhấp vào Xóa trong hộp thoại Mẫu chữ của người dùng hộp thoại.

02.11.2018 16:20:06


Please leave your feedback about this article