Nếu chương trình không nhận dạng được một số ký tự nhất định

ABBYY FineReader 14 sử dụng dữ liệu về ngôn ngữ tài liệu khi nhận dạng văn bản. Chương trình có thể không nhận dạng được một số ký tự trong các tài liệu có các thành phần ít gặp (ví dụ: số mã số) vì ngôn ngữ tài liệu có thể không chứa những ký tự này. Để nhận dạng những tài liệu này, bạn có thể tạo ngôn ngữ tùy chỉnh có tất cả các ký tự cần thiết. Bạn cũng có thể tạo các nhóm gồm nhiều ngôn ngữ OCR và sử dụng các nhóm này khi nhận dạng tài liệu.

Cách tạo ngôn ngữ người dùng

  1. Mở hộp thoại Tùy chọn hộp thoại (nhấp Công cụ > Tùy chọn... để mở hộp thoại này), nhấp vào Ngôn ngữ.
  2. Nhấp vào Mới... nút.
  3. Trong hộp thoại mở ra, chọn tùy chọn Tạo ngôn ngữ mới dựa trên ngôn ngữ hiện có chọn ngôn ngữ bạn muốn dùng làm cơ sở cho ngôn ngữ mới và nhấp vào OK.
  4. Ngăn Thuộc tính ngôn ngữ sẽ mở ra. Trong hộp thoại này:
    1. Nhập tên cho ngôn ngữ mới của bạn.
    2. Ngôn ngữ bạn đã chọn trong hộp thoại Nhóm hoặc ngôn ngữ mới được hiển thị trong danh sách Ngôn ngữ gốc danh sách thả xuống. Bạn có thể chọn một ngôn ngữ khác từ danh sách thả xuống này.
    3. Ngăn Bảng chữ cái chứa bảng chữ cái của ngôn ngữ cơ sở. Nếu bạn muốn chỉnh sửa bảng chữ cái, nhấp vào nút.
    4. Ngăn Từ điển option có một số tùy chọn cho từ điển sẽ được chương trình sử dụng khi nhận dạng văn bản và kiểm tra kết quả:
      • Không
        Ngôn ngữ sẽ không có từ điển.
      • Từ điển tích hợp
        Từ điển tích hợp của chương trình sẽ được sử dụng.
      • Từ điển của người dùng
        Nhấp vào Chỉnh sửa... để chỉ định các thuật ngữ trong từ điển hoặc nhập từ điển tùy chỉnh hoặc tệp văn bản sẵn có với mã hóa Windows-1252 (các thuật ngữ phải được tách riêng bằng dấu cách hoặc các ký tự khác không có trong bảng chữ cái).
        Các từ trong từ điển người dùng sẽ không được đánh dấu là sai chính tả khi được kiểm tra chính tả trong văn bản được nhận dạng. Chúng có thể được viết bằng toàn bộ chữ thường hoặc toàn bộ chữ hoa hoặc có thể bắt đầu bằng chữ hoa.
Từ trong từ điển Các từ sẽ không được coi là sai chính tả khi kiểm tra chính tả
abc abc, Abc, ABC
Abc abc, Abc, ABC
ABC abc, Abc, ABC
Abc aBc, abc, Abc, ABC
  • Ngăn Biểu thức thông thường cho phép bạn tạo từ điển người dùng bằng các biểu ngữ thông dụng.
    Xem thêm: Biểu ngữ thông dụng.
  1. Ngôn ngữ có thể có một vài thuộc tính bổ sung. Để thay đổi những thuộc tính này, nhấp vào nút Nâng cao... để mở hộp thoại Thuộc tính ngôn ngữ nâng cao tại đó bạn có thể chỉ định:
    • Các ký tự có thể bắt đầu hoặc kết thúc một từ
    • Các ký tự không phải chữ cái xuất hiện riêng với từ
    • Các ký tự có thể xuất hiện trong từ nhưng cần được bỏ qua
    • Các ký tự không thể xuất hiện trong văn bản được nhận dạng bằng ngôn ngữ này (các ký tự bị cấm)
    • Tùy chọn Văn bản có thể chứa chữ số Ả Rập, chữ số La Mã và từ viết tắt
  2. Giờ đây bạn có thể chọn ngôn ngữ được tạo mới khi chọn ngôn ngữ OCR.
    Để biết thêm về ngôn ngữ OCR, xem Ngôn ngữ OCR.

Theo mặc định, ngôn ngữ người dùng được lưu trong thư mục dự án OCR. Bạn cũng có thể lưu ngôn ngữ và mẫu người dùng dưới dạng một tệp. Để thực hiện việc này, mở Tùy chọn hộp thoại (nhấp Công cụ > Tùy chọn... để mở hộp thoại này), nhấp vào OCR rồi nhấp vào Lưu mẫu và ngôn ngữ... nút.

Tạo nhóm ngôn ngữ

Nếu bạn chuẩn bị sử dụng thường xuyên một kết hợp ngôn ngữ cụ thể, bạn có thể cần nhóm các ngôn ngữ với nhau để thuận tiện.

  1. Mở hộp thoại Tùy chọn hộp thoại (nhấp Công cụ > Tùy chọn... để mở hộp thoại này) và nhấp vào tab Ngôn ngữ.
  2. Nhấp vào Mới... nút.
  3. Trong Nhóm hoặc ngôn ngữ mới chọn tùy chọn Tạo nhóm ngôn ngữ mới và nhấp vào OK.
  4. Ngăn Thuộc tính nhóm ngôn ngữ sẽ mở ra. Trong hộp thoại này, chỉ định tên cho nhóm ngôn ngữ và chọn các ngôn ngữ bạn muốn đưa vào nhóm.
    Nếu bạn biết rằng văn bản của mình sẽ không chứa các ký tự nhất định, bạn có thể muốn chỉ định rõ ràng các ký tự bị cấm này. Làm như vậy có thể làm tăng tốc độ và độ chính xác của OCR. Để chỉ định các ký tự này, nhấp vào nút Nâng cao... trong hộp thoại Thuộc tính nhóm ngôn ngữ và nhập các ký tự bị cấm vào trường Các ký tự bị cấm.
  5. Nhấp OK.

Nhóm mới sẽ xuất hiện trong danh sách ngôn ngữ thả xuống trên thanh công cụ chính.

Theo mặc định, các nhóm ngôn ngữ người dùng được lưu trong thư mục Dự án OCR. Bạn cũng có thể lưu ngôn ngữ và mẫu người dùng dưới dạng một tệp. Để thực hiện việc này, mở Tùy chọn hộp thoại (nhấp Công cụ > Tùy chọn... để mở hộp thoại này), nhấp vào OCR rồi nhấp vào Lưu mẫu và ngôn ngữ... nút.

Gợi ý. Bạn có thể sử dụng danh sách ngôn ngữ thả xuống trên thanh công cụ chính để chọn một nhóm ngôn ngữ.

  1. Chọn Ngôn ngữ khác... từ danh sách ngôn ngữ thả xuống trên thanh công cụ chính.
  2. Trong Trình biên tập ngôn ngữ chọn tùy chọn Chỉ định ngôn ngữ OCR bằng tay.
  3. Chọn ngôn ngữ mong muốn và nhấp vào OK.

02.11.2018 16:20:06


Please leave your feedback about this article