Làm việc với ngôn ngữ chữ viết phức tạp

Với ABBYY FineReader, bạn có thể nhận dạng tài liệu bằng Tiếng Ả Rập, Tiếng Do Thái, Tiếng Yiddish, Tiếng Thái, Tiếng Trung, Tiếng Nhật và Tiếng Hàn. Cần phải tính đến một số nhân tố khác khi làm việc với các tài liệu bằng Tiếng Trung, Tiếng Nhật hoặc Tiếng Hàn và các tài liệu sử dụng kết hợp CJK và ngôn ngữ châu Âu.

Phông chữ khuyến nghị

Nhận dạng văn bản bằng tiếng Tiếng Ả Rập, Tiếng Do Thái, Tiếng Yiddish, Tiếng Thái, Tiếng Trung, Tiếng Nhật và Tiếng Hàn có thể yêu cầu cài đặt các phông chữ bổ sung. Bảng dưới đây liệt kê các phông chữ khuyến nghị cho văn bản bằng những ngôn ngữ này.

Ngôn ngữ OCR Phông chữ khuyến nghị
Tiếng Ả Rập Arial™ Unicode™ MS
Tiếng Do Thái Arial™ Unicode™ MS
Tiếng Yiddish Arial™ Unicode™ MS
Tiếng Thái

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Tiếng Trung (Giản thể)

Tiếng Trung (Phồn thể)

Tiếng Nhật, Tiếng Hàn

Tiếng Hàn (Hangul)

Arial™ Unicode™ MS

Các phông chữ SimSum như:

Example SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(ISO10646)

STSong

Các phần dưới đây có lời khuyên về cách cải thiện độ chính xác nhận dạng.

Tắt xử lý hình ảnh tự động

Theo mặc định, bất kỳ trang nào bạn thêm vào Dự án OCR điều được nhận dạng tự động.

Tuy nhiên, nếu tài liệu của bạn chứa văn bản ở ngôn ngữ CJK kết hợp với một ngôn ngữ châu Âu, chúng tôi đề xuất bạn tắt phát hiện hướng trang tự động và chỉ sử dụng tùy chọn tách trang kép nếu tất cả các hình ảnh trang đều đúng hướng (ví dụ: chúng không được quét từ dưới lên).

Bạn có thể bật/tắt các tùy chọn Chỉnh sửa đúng hướng trangTách các trang đối diện trên tab Đang xử lý hình ảnh của hộp thoại Tùy chọn (nhấp Công cụ > Tùy chọn... để mở hộp thoại này).

Để tách các trang đối diện bằng tiếng Ả Rập, Do Thái, hoặc Yiddish, đảm bảo trước hết chọn ngôn ngữ OCR tương ứng và sau đó mới chọn tùy chọn Tách các trang đối diện. Bạn cũng có thể khôi phục số trang gốc bằng cách chọn tùy chọn Đổi trang sách. Xem thêm: Các dự án OCR .

Nếu tài liệu của bạn có cấu trúc phức tạp, chúng tôi đề xuất bạn tắt phân tích và OCR tự động cho hình ảnh và thực hiện các thao tác thủ công.

Bạn có thể tắt tự động phân tích và OCR hình ảnh mới được thêm trong tab Đang xử lý hình ảnh của hộp thoại Tùy chọn (nhấp Công cụ > Tùy chọn... để mở hộp thoại này).

  1. Nhấp Công cụ > Tùy chọn... để mở hộp thoại Tùy chọn.
  2. Trên tab Đang xử lý hình ảnh, xóa tùy chọn Tự động xử lý hình ảnh trong trang khi thêm vào OCR Editor.
  3. Nhấp OK.

Nhận dạng tài liệu được viết bằng nhiều ngôn ngữ

Hướng dẫn bên dưới được cung cấp làm ví dụ và giải thích cách nhận dạng tài liệu có chứa cả văn bản Tiếng Anh và Tiếng Trung. Tài liệu chứa các ngôn ngữ khác có thể được nhận dạng theo cách tương tự.

  1. Trên thanh công cụ chính, chọn Ngôn ngữ khác... từ danh sách ngôn ngữ. Trong hộp thoại Trình biên tập ngôn ngữ, chọn Chỉ định ngôn ngữ OCR bằng tay và chọn Tiếng Trung và Tiếng Anh từ danh sách ngôn ngữ.
  2. Quét trang hoặc mở hình ảnh.
  3. Nếu chương trình không phát hiện được tất cả các vùng trên hình ảnh:
    • Chỉ định các vùng thủ công bằng công cụ chỉnh sửa vùng
    • Chỉ định vùng chỉ chứa một ngôn ngữ và trên Thuộc tính vùng chọn Tiếng Anh hoặc Tiếng Trung khi phù hợp.
      Chỉ có thể chỉ định ngôn ngữ cho các vùng cùng loại. Nếu bạn đã chọn các vùng thuộc nhiều loại khác nhau như Văn bảnBảng, bạn sẽ không thể chỉ định ngôn ngữ.
    • Nếu cần, chọn hướng văn bản từ Định hướng (để biết chi tiết, xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng)
    • Đối với văn bản bằng các ngôn ngữ CJK, chương trình cung cấp lựa chọn hướng văn bản trong danh sách thả xuống Hướng của văn bản CJK (để biết chi tiết, xem Chỉnh sửa thuộc tính vùng).

Ký tự phi châu Âu không hiển thị trong ngăn Văn bản

Nếu văn bản bằng ngôn ngữ CJK được hiển thị không đúng trong ngăn Văn bản, có thể bạn đã chọn chế độ Văn bản thuần túy.

Để thay đổi phông chữ được sử dụng trong chế độ Văn bản thuần túy:

  1. Nhấp Công cụ > Tùy chọn... để mở hộp thoại Tùy chọn.
  2. Chọn tab Các vùng và văn bản.
  3. Chọn Arial Unicode MS từ Phông chữ được sử dụng để hiển thị văn bản thuần túy danh sách thả xuống.
  4. Nhấp OK.

Nếu việc này không hiệu quả và văn bản trong cửa sổ Văn bản vẫn được hiển thị không đúng, xem Phông chữ không chính xác được sử dụng hoặc một số ký tự được thay thế bằng "?" hoặc "□".

Thay đổi hướng của văn bản được nhận dạng

ABBYY FineReader tự động phát hiện hướng văn bản, nhưng bạn cũng có thể chỉ định hướng văn bản thủ công.

  1. Kích hoạt ngăn Văn bản.
  2. Chọn một hoặc nhiều đoạn.
  3. Nhấp vào nút trên thanh công cụ trong ngăn Văn bản.

Bạn có thể sử dụng danh sách thả xuống Hướng của văn bản CJK trong ngăn Hình ảnh để chỉ định hướng văn bản trước khi OCR. Xem thêm: Chỉnh sửa thuộc tính vùng.

02.11.2018 16:20:06


Please leave your feedback about this article