Nếu chương trình không nhận dạng được một số ký tự

ABBYY FineReader sử dụng dữ liệu về ngôn ngữ tài liệu khi nhận dạng văn bản. Chương trình có thể không nhận dạng được một số ký tự trong các tài liệu có các thành phần ít gặp (ví dụ: số mã số) vì ngôn ngữ tài liệu có thể không chứa những ký tự này. Để nhận dạng những tài liệu này, bạn có thể tạo ngôn ngữ tùy chỉnh có tất cả các ký tự cần thiết. Bạn cũng có thể gán nhiều ngôn ngữ cho các nhóm ngôn ngữ và sử dụng các nhóm này để nhận dạng.

Tạo ngôn ngữ người dùng

  1. Trên menu Công cụ, nhấp vào Trình biên tập ngôn ngữ…
  2. Trong hộp thoại Trình biên tập ngôn ngữ, nhấp vào Mới…
  3. Trong hộp thoại mở ra, chọn tùy chọn Tạo ngôn ngữ mới dựa trên ngôn ngữ hiện có, rồi chọn ngôn ngữ sẽ được sử dụng làm cơ sở cho ngôn ngữ mới của bạn và nhấp OK.
  4. Hộp thoại Thuộc tính ngôn ngữ sẽ mở ra. Trong hộp thoại này:
    1. Nhập tên của ngôn ngữ mới.
    2. Ngôn ngữ cơ sở bạn đã chọn trước đây sẽ được hiển thị trong danh sách thả xuống Ngôn ngữ gốc. Bạn có thể thay đổi ngôn ngữ nguồn.
    3. Bảng chữ cái chứa bảng chữ cái của ngôn ngữ cơ sở. Nhấp vào nút nếu bạn muốn chỉnh sửa bảng chữ cái.
    4. Có một số tùy chọn liên quan đến Từ điển sẽ được chương trình sử dụng khi nhận dạng văn bản và kiểm tra kết quả:
      • Không

Ngôn ngữ sẽ không có từ điển.

  • Từ điển tích hợp

Từ điển tích hợp của chương trình sẽ được sử dụng.

  • Từ điển của người dùng

Nhấp vào nút Chỉnh sửa… để chỉ định các thuật ngữ trong từ điển hoặc nhập từ điển tùy chỉnh hoặc tệp văn bản sẵn có với mã hóa Windows-1252 (các thuật ngữ phải được tách riêng bằng dấu cách hoặc các ký tự khác không có trong bảng chữ cái).

Lưu ý: Các từ trong từ điển người dùng sẽ không được đánh dấu là sai khi được kiểm tra chính tả trong văn bản được nhận dạng. Chúng có thể được viết bằng toàn bộ chữ cái viết thường hoặc toàn bộ chữ cái viết hoa hoặc có thể bắt đầu bằng chữ cái viết hoa.

Từ trong từ điển Các từ sẽ không được coi là sai khi kiểm tra chính tả
abc abc, Abc, ABC
Abc abc, Abc, ABC
ABC abc, Abc, ABC
aBc aBc, abc, Abc, ABC
  • Biểu thức thông thường

Bạn có thể tạo từ điển ngôn ngữ tùy chỉnh bằng các biểu thức chính quy.

Để biết chi tiết, xem "Biểu thức chính quy".

  1. Ngôn ngữ có thể có một vài thuộc tính bổ sung. Để thay đổi những thuộc tính này, nhấp vào nút Nâng cao….

Hộp thoại Thuộc tính ngôn ngữ nâng cao sẽ mở ra. Tại đây bạn có thể chỉ định:

  • Các ký tự có thể nằm trong phần đầu hoặc cuối từ
  • Các ký tự không phải chữ cái xuất hiện riêng với từ
  • Các ký tự có thể xuất hiện ở giữa từ và sẽ được bỏ qua.
  • Các ký tự không thể xuất hiện trong văn bản được nhận dạng sử dụng từ điển này (các ký tự bị cấm)
  • Tất cả các ký tự có thể nhận dạng từ ngôn ngữ
  • Bạn cũng có thể bật tùy chọn Văn bản có thể chứa chữ số Ả Rập, chữ số La Mã và từ viết tắt
  1. Bây giờ bạn có thể chọn ngôn ngữ mới được tạo khi chọn ngôn ngữ tài liệu.

Xem "Các tính năng của tài liệu cần xem xét trước khi OCR" để biết thêm thông tin về ngôn ngữ tài liệu.

Theo mặc định, ngôn ngữ người dùng được lưu vào thư mục tài liệu FineReader. Bạn cũng có thể lưu ngôn ngữ người dùng và mẫu người dùng dưới dạng một tệp. Để làm như vậy, trên menu Công cụ, nhấp vào Tùy chọn… để mở hộp thoại Tùy chọn, nhấp vào tab Đọc rồi nhấp vào nút Lưu vào tệp....

Tạo nhóm ngôn ngữ

Nếu bạn định sử dụng một kết hợp ngôn ngữ cụ thể thường xuyên, bạn có thể muốn nhóm các ngôn ngữ với nhau cho thuận tiện.

  1. Trên menu Công cụ, nhấp vào Trình biên tập ngôn ngữ….
  2. Trong hộp thoại Trình biên tập ngôn ngữ, nhấp vào Mới….
  3. Trong hộp thoại Nhóm hoặc ngôn ngữ mới, chọn Tạo nhóm ngôn ngữ mới và nhấp OK.
  4. Trong hộp thoại Thuộc tính nhóm ngôn ngữ, nhập tên cho nhóm mới của bạn và chọn ngôn ngữ mong muốn.

Lưu ý: Nếu bạn biết rằng văn bản của mình sẽ không chứa các ký tự nhất định, bạn có thể muốn chỉ định rõ ràng các ký tự bị cấm này. Chỉ định các ký tự bị cấm có thể tăng tốc độ và chất lượng nhận dạng. Để chỉ định các ký tự bị cấm, nhấp vào nút Nâng cao… trong hộp thoại Thuộc tính nhóm ngôn ngữ. Trong hộp thoại Thuộc tính nhóm ngôn ngữ nâng cao, nhập các ký tự bị cấm trong trường Các ký tự bị cấm.

  1. Nhấp vào OK.

Nhóm mới được tạo sẽ được thêm vào danh sách thả xuống Ngôn ngữ của tài liệu trên thanh công cụ chính.

Theo mặc định, các nhóm ngôn ngữ người dùng được lưu trong thư mục tài liệu FineReader. Bạn cũng có thể lưu ngôn ngữ người dùng và mẫu người dùng dưới dạng một tệp. Để làm như vậy, trên menu Công cụ, nhấp vào Tùy chọn… để mở hộp thoại Tùy chọn, nhấp vào tab Đọc rồi nhấp vào nút Lưu vào tệp….

Gợi ý: Nếu bạn cần kết hợp ngôn ngữ cụ thể cho tài liệu, bạn cũng có thể chọn ngôn ngữ mong muốn trực tiếp, mà không cần tạo nhóm.

  1. Từ danh sách thả xuống Ngôn ngữ của tài liệu, chọn Ngôn ngữ khác….
  2. Trong hộp thoại Trình biên tập ngôn ngữ, chọn Chỉ định ngôn ngữ thủ công.
  3. Chọn ngôn ngữ mong muốn và nhấp Hủy.

14.01.2020 17:26:22


Please leave your feedback about this article