Các tính năng của tài liệu cần xem xét trước khi OCR

Chất lượng của hình ảnh có ảnh hưởng quan trọng đến chất lượng nhận dạng. Phần này giải thích các yếu tố bạn nên cân nhắc trước khi nhận dạng hình ảnh:

Ngôn ngữ tài liệu

ABBYY FineReader nhận dạng cả tài liệu đơn ngữ và đa ngữ (nghĩa là được viết bằng hai hoặc nhiều ngôn ngữ). Đối với tài liệu đa ngữ, bạn cần chọn một số ngôn ngữ nhận dạng.

Để chỉ định ngôn ngữ OCR cho tài liệu của bạn, trong danh sách thả xuống Ngôn ngữ tài liệu trên thanh công cụ chính hoặc trong cửa sổ Tác vụ, chọn một trong các tùy chọn sau:

  • Tự động chọn

ABBYY FineReader sẽ tự động chọn ngôn ngữ phù hợp từ danh sách ngôn ngữ do người dùng xác định. Để sửa đổi danh sách này:

  1. Chọn Ngôn ngữ khác…
  2. Trong hộp thoại Trình biên tập ngôn ngữ, chọn tùy chọn Tự động chọn ngôn ngữ cho tài liệu từ danh sách sau.
  3. Nhấp vào nút Chỉ định….
  4. Trong hộp thoại Ngôn ngữ, chọn các ngôn ngữ mong muốn.
  • Một ngôn ngữ hoặc kết hợp các ngôn ngữ

Chọn một ngôn ngữ hoặc kết hợp các ngôn ngữ. Danh sách ngôn ngữ bao gồm các ngôn ngữ nhận dạng được sử dụng gần đây, cũng như Tiếng Anh, Tiếng Đức và Tiếng Pháp.

  • Ngôn ngữ khác…

Chọn tùy chọn này nếu ngôn ngữ bạn cần không hiển thị trong danh sách.

Trong hộp thoại Trình biên tập ngôn ngữ, chọn tùy chọn Chỉ định ngôn ngữ thủ công rồi chọn ngôn ngữ hoặc các ngôn ngữ mong muốn bằng cách chọn các ô thích hợp. Nếu bạn thường sử dụng kết hợp ngôn ngữ cụ thể, bạn có thể tạo một nhóm mới cho những ngôn ngữ này.

Nếu một ngôn ngữ không có trong danh sách, hoặc là:

  1. Ngôn ngữ này không được hỗ trợ bởi ABBYY FineReader.

Để biết danh sách đầy đủ các ngôn ngữ được hỗ trợ, xem "Ngôn ngữ được hỗ trợ".

  1. Ngôn ngữ này không được hỗ trợ bởi bản sao phần mềm của bạn.

Danh sách đầy đủ các ngôn ngữ hiện có trong bản sao của bạn có thể tìm thấy trong hộp thoại Giấy phép (Trợ giúp > Giới thiệu… > Thông tin giấy phép).

Ngoài việc sử dụng các ngôn ngữ và nhóm ngôn ngữ tích hợp, bạn có thể tạo ngôn ngữ của riêng mình. Để biết chi tiết, xem "Nếu chương trình không nhận dạng được một số ký tự".

Kiểu in

Tài liệu có thể được in trên nhiều thiết bị khác nhau như máy đánh chữ và máy fax. Chất lượng OCR có thể được cải thiện bằng cách chọn đúng Loại tài liệu trong hộp thoại Tùy chọn.

Đối với hầu hết các tài liệu, chương trình sẽ phát hiện kiểu in tự động. Để phát hiện kiểu in tự động, tùy chọn Tự động phải được chọn trong Loại tài liệu trong hộp thoại Tùy chọn (Công cụ > Tùy chọn…). Bạn có thể xử lý tài liệu ở chế độ màu đầy đủ hoặc đen trắng.

Bạn cũng có thể chọn để lựa chọn kiểu in theo cách thủ công nếu cần.

Ví dụ về văn bản được đánh máy. Tất cả nét chữ có chiều rộng bằng nhau (so sánh, ví dụ: "w" và "t"). Đối với văn bản thuộc loại này, chọn Máy đánh chữ.
Ví dụ về văn bản được tạo ra bởi máy fax. Như bạn có thể thấy từ ví dụ, các nét chữ không rõ ràng trong một số vị trí, ngoài hiện tượng nhiễu và biến dạng. Đối với văn bản thuộc loại này, chọn Fax.

Gợi ý: Sau khi nhận dạng văn bản được đánh máy hoặc fax, đảm bảo chọn Tự động trước khi xử lý các tài liệu in thông thường.

Chất lượng in

Tài liệu có chất lượng kém bị "nhiễu" (nghĩa là có chấm hoặc vệt màu đen ngẫu nhiên), nét chữ không đều và bị mờ hoặc các dòng bị nghiêng và đường viền bảng bị dịch chuyển có thể yêu cầu cài đặt quét cụ thể.

Fax Báo

Tài liệu có chất lượng kém được quét tốt nhất ở thang độ xám. Khi quét ở thang độ xám, chương trình sẽ tự động chọn giá trị độ sáng tối ưu.

Chế độ quét thang độ xám giữ lại nhiều thông tin hơn về nét chữ trong văn bản được quét để có được kết quả OCR tốt hơn khi nhận dạng tài liệu có chất lượng từ trung bình đến kém. Bạn cũng có thể sửa một số lỗi bằng cách thủ công sử dụng công cụ chỉnh sửa hình ảnh có trong Biên tập ảnh. Để biết chi tiết, xem "Xử lý sơ bộ ảnh".

Chế độ màu

Nếu bạn không cần giữ màu gốc của tài liệu màu đầy đủ, bạn có thể xử lý tài liệu ở chế độ đen trắng. Điều này sẽ giảm đáng kể kích cỡ tài liệu ABBYY FineReader thu được và tăng tốc quy trình OCR. Tuy nhiên, xử lý hình ảnh có độ tương phản thấp ở chế độ đen trắng có thể dẫn đến chất lượng OCR kém. Chúng tôi cũng không đề xuất xử lý ở chế độ đen trắng cho ảnh, trang tạp chí và văn bản bằng Tiếng Trung, Tiếng Nhật và Tiếng Hàn.

Lưu ý: Bạn cũng có thể tăng tốc độ nhận dạng tài liệu màu và đen trắng bằng cách chọn tùy chọn Đọc nhanh trên tab Đọc của hộp thoại Tùy chọn. Để biết thêm thông tin về các chế độ nhận dạng, xem Tùy chọn OCR.

Để chọn chế độ màu:

  • Sử dụng danh sách thả xuống Chế độ màu trong hộp thoại Tác vụ hoặc
  • Chọn một trong các tùy chọn trong Chế độ màu trên tab Tài liệu của hộp thoại Tùy chọn (Công cụ > Tùy chọn…).

Quan trọng! Sau khi tài liệu được chuyển đổi sang dạng đen trắng, bạn sẽ không thể khôi phục màu. Để có tài liệu màu, mở tệp với hình ảnh màu hoặc quét tài liệu giấy ở chế độ màu.

14.01.2020 17:26:22


Please leave your feedback about this article