Glossar

A

Abkürzung ist die Kurzform eines Wortes oder Ausdrucks (z. B. MS-DOS für Microsoft Disk Operating System, UN für United Nations etc.).

Aktiver Bereich ist ein Bereich, der auf einem Bild aktuell markiert wurde und nun gelöscht, verschoben oder bearbeitet werden kann. Um einen Bereich zu aktivieren, klicken Sie darauf. Der Rahmen des aktiven Bereichs ist fett formatiert und enthält Anfasser, die zur Änderung der Größe des Bereichs an eine andere Position gezogen werden können.

Auflösung ist ein Scanparameter, gemessen in Dots per Inch (dpi). Texte mit einer Schriftgröße ab 10 pt sollten mit einer Auflösung von 300 dpi, kleinere Schriftgrößen (9 pt und kleiner) mit einer Auflösung von 400-600 dpi gescannt werden.

B

Bereich ist ein Bildbereich, der von einem Rahmen umgeben ist und einen bestimmten Datentyp enthält. Vor dem OCR-Vorgang unterteilt ABBYY FineReader das Dokument in Text-, Bild-, Tabellen- und Strichcodebereiche, um festzulegen, welche Teile des Seitenbildes in welcher Reihenfolge erkannt werden sollen.

Bereichsvorlage ist eine Vorlage, die Informationen über Größe und Positionen der Bereiche in ähnlich aussehenden Dokumenten enthält.

Bildbereich ist ein Bildbereich, der eine Abbildung enthält. Dieser Bereichstyp kann richtige Bilder oder andere als Bild darzustellende Objekte enthalten (z. B. Textabschnitte).

C

Codeseite ist eine Tabelle, die Zuordnungen zwischen Zeichen und deren Codes herstellt. Die benötigten Zeichen können von den Benutzern aus dem Zeichensatz der Codeseite ausgewählt werden.

Zurück zum Anfang

D

Dokumentanalyse ist der Prozess der Identifizierung der logischen Struktur eines Dokuments und von Bereichen, die verschiedene Datentypen enthalten. Dokumentanalysen können automatisch oder manuell durchgeführt werden.

Dokumententyp ist ein Parameter, der dem Programm mitteilt, wie der Originaltext gedruckt wurde (z. B. mit einem Laserdrucker, mit einer Schreibmaschine etc.). Für mit Laserdruckern gedruckte Texte wählen Sie Autom., für Schreibmaschinentexte wählen Sie Schreibmaschine, für Faxe wählen Sie Fax.

E

Erkennungsbereich ist ein Bildbereich, den ABBYY FineReader automatisch analysieren soll.

F

Farbmodus legt fest, ob die Dokumentfarben erhalten werden sollen oder nicht. Schwarzweiß-Bilder führen zu kleineren OCR-Projekten und können schneller verarbeitet werden.

H

Hintergrundbildbereich ist ein Bildbereich, der ein Bild mit einem darüber gedruckten Text enthält.

I

Ignorierte Zeichen sind in Wörtern erkannte Zeichen, die keine Buchstaben sind (z. B. Silbenzeichen oder Betonungszeichen). Diese Zeichen werden bei der Rechtschreibprüfung ignoriert.

Invertiertes Bild ist ein Bild mit hellen Zeichen vor dunklem Hintergrund.

K

Konstantschriftart ist eine Schriftart (wie Courier New) mit fester Breite für alle Zeichen. Für bessere OCR-Ergebnisse bei Konstantschriftarten wählen Sie auf der Registerkarte OCR des Dialogfelds Optionen die Option Schreibmaschine in der Optionsgruppe Dokumenttyp.

Kontextmenü ist das Menü, das angezeigt wird, wenn Sie mit der rechten Maustaste auf etwas klicken, wie z. B. einen Bereich oder einen anderen Teil eines Dokuments.

Kopf- und Fußzeilen sind Bilder oder Texte am oberen oder unteren Rand einer Seite. Kopfzeilen befinden sich oben auf der Seite und Fußzeilen unten.

Zurück zum Anfang

L

Ligatur ist eine Kombination aus zwei oder mehr scheinbar "zusammengeklebten" Zeichen wie beispielsweise e.g. fi, fl, ffi. Solche Zeichen sind für ABBYY FineReader schwer zu trennen. Darum lassen sich genauere OCR-Ergebnisse erzielen, wenn diese Buchstabenkombinationen gleich als eigenständige Zusammensetzungen behandelt werden.

M

Muster ist eine Reihe von Verbindungen zwischen gemittelten Zeichenbildern und deren jeweiligen Namen. Muster werden dann erstellt, wenn Sie ABBYY FineReader anhand eines spezifischen Textes trainieren.

O

OCR (Optical Character Recognition) ist eine Technologie, die Computern das Lesen von Text, das Erkennen von Bildern, Tabellen und anderen Formatierungselementen ermöglicht.

Omnifontsystem (Allschriftsystem) ist ein Erkennungssystem, das Zeichen in jeder Schriftart ohne vorheriges Training erkennt.

Zurück zum Anfang

P

Paradigma ist die Gesamtheit aller grammatikalischen Formen eines Worts.

Primärform ist die Wörterbuchform eines Wortes (Hauptwörter von Wörterbucheinträgen werden im Allgemeinen in ihrer Primärform angegeben).

S

Scanmodus ist ein Scanparameter, der angibt, ob ein Bild schwarzweiß, in Graustufen oder farbig gescannt wird.

Schrifteffekte sind die Formatierungen einer Schriftart: fett, kursiv, unterstrichen, durchgestrichen, tiefgestellt, hochgestellt, Kapitälchen usw.

Seitenlayout ist die Anordnung von Text, Tabellen, Bildern, Absätzen und Spalten auf einer Seite. Die Schriftarten, Schriftgrößen, Schriftfarben sowie Texthintergrund und Textausrichtung sind ebenfalls Bestandteil des Seitenlayouts.

Strichcodebereich ist ein Bildbereich, der einen Strichcode enthält.

Zurück zum Anfang

T

Tabellenbereich ist ein Bildbereich, der Daten im Tabellenformat enthält. Beim Einlesen dieses Bereichstyps zeichnet das Programm innerhalb des Bereichs automatisch vertikale und horizontale Trennlinien, die eine Tabelle bilden. Im Ausgabetext wird der Bereich dann wieder als Tabelle dargestellt.

Tastenkombinationen sind Tasten oder Kombinationen von Tasten, die bei Betätigung eine bestimmte Aktion auslösen. Der Einsatz von Tastenkombinationen kann Ihre Produktivität signifikant erhöhen.

Textbereich ist ein Bildbereich, der Text enthält. Textbereiche sollten nur einspaltigen Text enthalten.

Training ist der Vorgang der Zuordnung von Zeichenbildern zu den tatsächlichen Zeichen. Siehe auch: Wenn Ihr gedrucktes Dokument nicht dem Standard entsprechende Schriftarten enthält.

Trennzeichen sind Symbole, die zur Trennung von Wörtern verwendet werden können (z. B. " /"," \\", " -") und selbst durch Leerzeichen vom Wort getrennt sind.

U

Unicode ist ein internationaler Textkodierungsstandard, der vom Unicode Consortium (Unicode, Inc.) entwickelt wurde. Der Unicode-Standard stellt ein einfach erweiterbares 16-Bit-System für die Kodierung von Symbolen so gut wie aller modernen Sprachen zur Verfügung. Er legt fest, wie die Symbole kodiert werden sollen und bestimmt, welche Algorithmen und Zeicheneigenschaften während des Kodierungsprozesses verwendet werden sollten.

Unzulässige Zeichen sind Zeichen, von denen Sie annehmen, dass sie in einem zu erkennenden Text nie auftreten werden. Durch die Angabe von unzulässigen Zeichen lassen sich die Geschwindigkeit und Genauigkeit des OCR-Vorgangs erhöhen.

Unzuverlässig erkannte Wörter sind Wörter, die ein oder mehrere unzuverlässig erkannte(s) Zeichen enthalten.

Unzuverlässig erkannte Zeichen sind Zeichen, die vom Programm eventuell nicht korrekt erkannt wurden.

Z

Zusammengesetztes Wort ist ein Wort, das aus zwei oder mehr Wörtern besteht. In ABBYY FineReader ist ein zusammengesetztes Wort ein Wort, dass das Programm nicht in seinem Wörterbuch finden, es aber aus zwei oder mehr Wörtern des Wörterbuchs zusammensetzen kann.

Zurück zum Anfang

26.03.2024 13:49:48

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.