Các tính năng của tài liệu cần xem xét trước khi OCR

Chất lượng của hình ảnh có ảnh hưởng quan trọng đến chất lượng OCR. Phần này giải thích các yếu tố bạn nên cân nhắc trước khi nhận dạng hình ảnh.

Ngôn ngữ OCR

ABBYY FineReader có thể nhận dạng cả tài liệu đơn ngữ và đa ngữ (nghĩa là được viết bằng hai hoặc nhiều ngôn ngữ). Đối với tài liệu đa ngữ, bạn cần chọn một số ngôn ngữ OCR.

Để chọn ngôn ngữ OCR, nhấp Tùy chọn > Ngôn ngữ và chọn một trong các tùy chọn sau:

  • Tự động chọn ngôn ngữ OCR cho tài liệu từ danh sách sau
    ABBYY FineReader sẽ tự động chọn ngôn ngữ phù hợp từ danh sách ngôn ngữ do người dùng xác định. Để chỉnh sửa danh sách ngôn ngữ:
    1. Đảm bảo tùy chọn Tự động chọn ngôn ngữ OCR cho tài liệu từ danh sách sau được chọn.
    2. Nhấp vào nút Chỉ định....
    3. Trong hộp thoại Ngôn ngữ, chọn ngôn ngữ mong muốn và nhấp OK.
    4. Trong hộp thoại Tùy chọn, nhấp OK.
  • Chỉ định ngôn ngữ OCR bằng tay
    Chọn tùy chọn này nếu ngôn ngữ bạn cần không có trong danh sách.

Trong hộp thoại bên dưới, chỉ định một hoặc nhiều ngôn ngữ. Nếu bạn thường sử dụng một kết hợp ngôn ngữ cụ thể, bạn có thể tạo một nhóm mới cho những ngôn ngữ này.

Nếu một ngôn ngữ không có trong danh sách, hoặc là:

  1. Không được hỗ trợ bởi ABBYY FineReader hoặc là
    Để có danh sách đầy đủ các ngôn ngữ được hỗ trợ, xem Ngôn ngữ OCR được hỗ trợ.
  2. Không được hỗ trợ bởi phiên bản sản phẩm của bạn.
    Danh sách đầy đủ các ngôn ngữ có sẵn trong phên bản sản phẩm của bạn có trong hộp thoại Giấy phép (nhấp Trợ giúp > Giới thiệu > Thông tin giấy phép để mở hộp thoại này).

Ngoài việc sử dụng các ngôn ngữ và nhóm ngôn ngữ tích hợp, bạn có thể tạo ngôn ngữ và nhóm ngôn ngữ của riêng mình. Xem thêm: Nếu chương trình không nhận dạng được một số ký tự nhất định.

Kiểu in

Tài liệu có thể được in bằng nhiều thiết bị khác nhau như máy đánh chữ và máy fax. Chất lượng OCR có thể thay đổi tùy thuộc vào cách tài liệu được in. Bạn có thể cải thiện chất lượng OCR bằng cách chọn đúng kiểu in trong hộp thoại Tùy chọn.

Đối với hầu hết các tài liệu, chương trình sẽ tự động phát hiện kiểu in. Để tự động phát hiện kiểu in, tùy chọn Tự động phải được chọn trong nhóm tùy chọn Loại tài liệu trong hộp thoại Tùy chọn (nhấp Công cụ > Tùy chọn... >OCR để truy cập vào các tùy chọn này). Bạn có thể xử lý tài liệu ở chế độ màu đầy đủ hoặc đen trắng.

Bạn cũng có thể chọn chọn thủ công kiểu in khi cần.

Ví dụ như văn bản được đánh máy. Tất cả các chữ cái có chiều rộng bằng nhau (ví dụ, so sánh "w"và "t"). Đối với văn bản thuộc loại này, chọn Máy đánh chữ.
Ví dụ như văn bản được tạo bằng máy fax. Như bạn có thể thấy từ ví dụ, chữ cái không rõ ràng ở một số vị trí. Còn có cả nhiễu và biến dạng. Đối với văn bản thuộc loại này, chọn Fax.

Sau khi nhận dạng văn bản đánh máy hoặc ảnh fax, đảm bảo chọn Tự động trước khi xử lý các tài liệu in thông thường.

Chất lượng in

Tài liệu có chất lượng kém bị "nhiễu" (nghĩa là có chấm hoặc vệt màu đen ngẫu nhiên), nét chữ không đều và bị mờ hoặc các dòng bị nghiêng và đường viền bảng bị dịch chuyển có thể yêu cầu cài đặt quét cụ thể.

Fax Báo

Tài liệu có chất lượng kém được quét tốt nhất thang độ xám. Khi quét ở thang độ xám, chương trình sẽ tự động chọn giá trị độ sáng độ sáng tối ưu.

Chế độ quét thang độ xám giữ lại nhiều thông tin hơn về nét chữ trong văn bản được quét để có được kết quả OCR tốt hơn khi nhận dạng tài liệu có chất lượng từ trung bình đến kém. Bạn cũng có thể sửa một số lỗi bằng cách thủ công sử dụng công cụ chỉnh sửa hình ảnh có trong Biên tập ảnh. Xem thêm: Nếu hình ảnh tài liệu của bạn có lỗi và độ chính xác OCR thấp.

Chế độ màu

Nếu bạn không cần giữ màu gốc của tài liệu màu đầy đủ, bạn có thể xử lý tài liệu ở chế độ đen trắng. Điều này sẽ giảm đáng kể kích cỡ của dự án OCR thu được và tăng tốc quy trình OCR. Tuy nhiên, xử lý hình ảnh có độ tương phản thấp ở chế độ đen trắng có thể dẫn đến chất lượng OCR kém. Chúng tôi cũng không đề xuất xử lý ở chế độ đen trắng cho ảnh, trang tạp chí và văn bản bằng Tiếng Trung, Tiếng Nhật và Tiếng Hàn.

Gợi ý. Bạn cũng có thể tăng tốc độ OCR tài liệu màu và đen trắng bằng cách chọn Nhận dạng nhanh trên tab OCR của hộp thoại Tùy chọn. Để biết thêm thông tin về các chế độ nhận dạng, xem Các tùy chọn OCR.

Để biết một số đề xuất khác về chọn chế độ màu phù hợp, xem Gợi ý quét.

Sau khi tài liệu được chuyển đổi sang dạng đen trắng, bạn sẽ không thể khôi phục màu. Để có tài liệu màu, mở tệp với hình ảnh màu hoặc quét tài liệu giấy ở chế độ màu.

02.11.2018 16:20:06


Please leave your feedback about this article