Глосарій

ABBYY Hot Folder — додаток-планувальник, за допомогою якого можна призначити час обробки документів із обраної папки. Відкриття файлів і розпізнавання зображень можна виконати тоді, коли комп’ютер найменш завантажений, наприклад уночі.

ABBYY Screenshot Reader — додаток, що дозволяє зробити знімок вибраної ділянки екрана та розпізнати текст, який міститься на знімку.

ADF (Automatic Document Feeder) — пристрій автоматичної подачі паперу, що дозволяє відсканувати велику кількість документів без ручного втручання. ABBYY FineReader підтримує сканування багатосторінкових документів.

ADRT® (Adaptive Document Recognition Technology) — технологія адаптивного розпізнавання документів, яка підвищує якість конвертації багатосторінкових документів. Зокрема, вона дозволяє визначати такі елементи структури документа, як заголовки, колонтитули, виноски, нумерацію сторінок, підписи.

dpi (dots per inch) — кількість точок на дюйм; одиниця виміру роздільної здатності.

OCR (Optical Character Recognition) — оптичне розпізнавання символів. За допомогою OCR-програми комп’ютер може «прочитати» на відсканованій сторінці текст, відділивши його від ілюстрацій та інших елементів оформлення, знайти таблиці та розібратися в їхньому змісті. А потім заново скомпонувати все це у зручному, придатному для редагування електронному вигляді, відтворивши зовнішній вигляд сторінки.

OCR-проект — це об’єкт, який створюється програмою ABBYY FineReader для роботи з одним вхідним документом з урахуванням його цілісної структури. Він містить зображення сторінок, відповідний для них розпізнаний текст (якщо є), налаштування програми (опції сканування, розпізнавання, збереження тощо).

PDF (Portable Document Format) — універсальний формат документів. PDF-файли однаково відображаються на всіх комп’ютерах. Такий ефект досягається завдяки наявності у файлі детальної інформації про конфігурацію тексту, таблицю кодів символів і графіку.

Product ID — параметр, який створюється на основі даних про конфігурацію комп’ютера в момент активації. Параметр не містить жодної персональної інформації, а також жодної інформації про модель комп’ютера, про інстальовані на ньому програмні продукти, налаштування користувача чи дані, що зберігаються на комп’ютері.

Support ID — унікальний ідентифікатор серійного номера, який містить інформацію про ліцензію та комп’ютер, забезпечує додатковий захист серійного номера й на підставі якого відбувається надання технічної підтримки.

Unicode — стандарт, розроблений концерном Unicode. Керує процесом кодування символів і надає шістнадцятибітну міжнародну розширювану систему кодування символів для обробки інформації більшістю мов народів світу. Стандарт Unicode визначає кодування символу, а також властивості й алгоритми, які використовуються під час реалізації цього процесу.

На початок

А

Абревіатура — скорочення, утворене з початкових літер слів. Наприклад, МГУ, MS-DOS тощо.

Автоматичні завдання — вбудований менеджер, який дозволяє запускати виконання завдань, створювати завдання та налаштовувати їх, а також видаляти завдання користувача, які не використовуються.

Активація — процес отримання користувачем у компанії ABBYY спеціального коду, необхідного для забезпечення роботи програми в повнофункціональному режимі на конкретному комп’ютері.

Активна ділянка — виділена ділянка, над якою виконуються такі дії, як видалення, зміна типу тощо. Для того щоб зробити ділянку активною, досить клацнути на ній курсором миші. Товщина рамки такої ділянки — напівжирна, а на її кутах знаходяться «квадратики».

Аналіз документа — процес виділення елементів логічної структури та ділянок різних типів у документі. Аналіз документа може виконуватися автоматично або вручну.

Г

Гарячі клавіші — це одна або кілька клавіш на клавіатурі, натискання на які викликає визначену команду. Використання гарячих клавіш значно прискорює роботу.

Д

Ділянка — ділянка зображення, укладена в рамку. Перед розпізнаванням програма виділяє ділянки з текстом, зображеннями, таблицями та штрих-кодами. Ділянки виділяються для того, щоб вказати системі, які частини зображення потрібно розпізнавати й у якому порядку.

Ділянка розпізнавання — ділянка, яка використовується для розпізнавання й автоматичного аналізу частини зображення. Після натискання на кнопку Розпізнати виділена ділянка автоматично аналізується та розпізнається.

Драйвер — програма, що керує пристроєм (наприклад, сканером, монітором тощо).

На початок

Е

Еталон — набір пар «усереднене точкове зображення символу» — його назва, який створюється в процесі навчання системи на конкретному тексті.

З

Заборонені символи — як заборонені символи для поточної мови вказуються ті, які напевне не можуть зустрічатися в текстах, що розпізнаються з підключенням цієї мови. Вказання таких символів може суттєво збільшити швидкість і надійність розпізнавання.

Завдання ABBYY FineReader — це набір послідовних кроків, кожен із яких відповідає одному етапу обробки документа. У програмі ABBYY FineReader 14 передбачені вбудовані завдання, повністю готові до використання. Також можна створювати власні завдання — завдання користувача. Запуск вбудованого завдання виконується зі Стартового вікна.

Зображення — ділянка, яка використовується для виділення зображень. Вона може містити зображення або будь-яку іншу частину тексту, яку ви хочете передати в розпізнаний текст як зображення.

І

Ігноровані символи — як ігноровані символи вказуються ті, які можуть траплятися всередині слова, наприклад знаки розподілу на склади чи наголосу в словниках. Під час перевірки за словником програма не враховує ці знаки. У розпізнаному тексті ці символи зберігаються, але під час перевірки орфографії не враховуються.

Інвертоване зображення — зображення, текст якого надруковано на темному тлі світлими літерами.

На початок

К

Кодова сторінка — таблиця, у якій задано відношення між кодами символів і їхніми накресленнями. У системі ABBYY FineReader кодову сторінку представлено як набір символів, із якого можна вибрати потрібні символи.

Колірний режим — параметр, який показує, чи буде збережено колірне оформлення документа. Чорно-білий режим дозволяє зменшити розмір OCR-проекту та пришвидшити його обробку.

Колонтитул — текст або зображення, яке розміщується на верхньому або нижньому полі сторінки поза ділянкою основного тексту. Колонтитул, розміщений на верхньому полі, називається верхнім колонтитулом, а розміщений на нижньому — нижнім колонтитулом.

Контекстне меню — з’являється, якщо ви клацаєте правою кнопкою миші на вибраному об’єкті. Наприклад, на ділянці або іншій частині відкритого документа.

Л

Лігатура — пара або трійка літер, які через особливості накреслення склеюються між собою. Наприклад, ге, го, fe, ffi, tt тощо.

М

М’який перенос — перенос (¬) показує, у якому саме місці має бути розірване слово або словосполучення (наприклад, «Автоформат»), якщо воно потрапляє на кінець рядка (наприклад, «Авто-формат»). Усі переноси в словникових словах ABBYY FineReader замінює на м’який перенос.

Менеджер ліцензій — додаток, у якому здійснюється керування ліцензіями й активація ABBYY FineReader 14 Corporate.

Моноширинний шрифт— будь-який шрифт, літери якого мають однакову ширину (моно). Наприклад, шрифт Courier New. Для покращення якості розпізнавання моноширинних шрифтів на закладці Розпізнавання діалогу Налаштування у пункті Тип документа встановіть перемикач у положення Друкарська машинка.

На початок

Н

Навчання — створення пар «растрове зображення — назва символу».  Див. також «Створення та навчання еталона».

Накреслення шрифту — спосіб виділення в тексті (напівжирний, похилий, із підкресленням, перекреслений, верхній індекс, нижній індекс, зменшені великі).

Налаштування документа— сукупність значень опцій, розташованих на закладках діалогу Налаштування (меню Інструменти > Налаштування...). До набору опцій також входять мови й еталони користувача. Набір опцій можна зберегти та потім використовувати (завантажувати) в інших документах ABBYY FineReader.

Невпевнено розпізнані символи — символи, які, можливо, були розпізнані неправильно.

Невпевнено розпізнані слова — слова, які містять невпевнено розпізнані символи.

О

Омніфонтова система — система розпізнавання, яка розпізнає символи практично будь-яких розмірів і накреслень.

Оформлення сторінки — розташування тексту, таблиць і зображень у документі, розбивка на абзаци, гарнітура та розмір шрифту, колонки, напрямок тексту, колір букв і фон тексту.

П

Парадигма — сукупність усіх граматичних форм слова.

Параметри захисту PDF — обмеження на відкривання, редагування копіювання та друк PDF-документа. До цих параметрів входять пароль відкривання документа, пароль для зміни прав доступу та рівень шифрування.

Пароль відкривання документа — пароль, що присвоюється PDF-документам. Користувачі можуть відкрити PDF-документ тільки після введення пароля, заданого автором документа.

Пароль для зміни прав доступу — пароль, що присвоюється PDF-документам. Користувачі можуть роздрукувати або внести зміни в PDF-документ тільки після введення пароля, заданого автором документа. При використанні захисту PDF-документа користувачі також повинні будуть вказати цей пароль, для того щоб змінити параметри захисту PDF.

Початкова форма — форма, у якій слова подаються в словнику. Для іменників це форма називного відмінка однини; для прикметників — форма чоловічого роду однини називного відмінка; для дієслів, дієприкметників і дієприслівників — це неозначена форма (інфінітив).

На початок

Р

Режим сканування — параметр сканування; зображення може бути чорно-білим, сірим або кольоровим.

Роздільна здатність — параметр сканування, що показує, яка кількість точок припадає на одиницю довжини. Од. 300 dpi відповідає розміру шрифту 10 і більше пунктів, 400–600 dpi для текстів, набраних дрібним шрифтом (9 і менше пунктів).

Розділювачі — символи, які можуть розділяти слова, наприклад /, \, тире тощо, і які пишуться окремо від слів.

С

Серійний номер — це унікальний номер, який видається вам під час купівлі програми. Серійний номер потрібен для того, щоб активувати програму.

Сканер — пристрій, призначений для введення зображень у комп’ютер.

Складне слово — слово, утворене шляхом складання двох основ (коренів), відсутнє у словнику. Воно може складатися з наявних у словнику слів.

Т

Таблиця — ділянка, яка використовується для виділення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває цю ділянку на рядки та стовпчики й формує табличну структуру. У вихідному тексті ця ділянка передається таблицею.

Теги PDF — спеціальні теги, які використовуються для виділення логічних частин і розмітки таблиць і зображень у PDF-документі. Теги, вбудовувані у PDF-документ, забезпечують зручність перегляду документа на екранах різного розміру, наприклад на екранах кишенькових комп’ютерів.

Текст — ділянка, яка використовується для виділення тексту. Вона повинна містити тільки текст в одну шпальту.

Тип друку вхідного документа— особливість у накресленні символів вхідного тексту залежно від того, яким чином він надрукований (у друкарні, на друкарській машинці тощо). Для типографського тексту варто встановлювати режим Авто, для машинописного — режим Друкарська машинка, для роздрукованого факсимільного повідомлення — режим Факс.

На початок

Ф

Фонове зображення — ділянка, яка використовується для виділення зображень, поверх яких знайдено текстовий блок.

Ш

Шаблон ділянок — у шаблоні зберігається положення та розміри ділянок на сторінці. Ви можете використовувати шаблони для прискорення розпізнавання документів, що мають однакову структуру (наприклад, форми, анкети).

Штрих-код — ділянка, яка використовується для виділення ділянок зображення, що містять штрих-код.

Я

Яскравість — параметр сканування, який визначає кількість білого кольору на вашому зображенні. Що вищою ви ставите яскравість, то світлішим вийде відскановане зображення. За правильного налаштування яскравості якість розпізнавання зростає. Див. також «Рекомендації щодо сканування».

На початок

02.11.2018 16:20:06


Please leave your feedback about this article