Statistikbasierter Lösungsansatz für die Fehlerkorrektur in OCR-Systemen

Studienarbeit aus dem Jahr 2010 im Fachbereich Informatik - Internet, neue Technologien, Note: 2, 0, Universität zu Köln (Sprachliche Informationsverarbeitung), Veranstaltung: Angewandte Linguistische Datenverarbeitung, Sprache: Deutsch, Abstract: Die vorliegende Verschriftlichung ist eine Hauptseminararbeit für die Lehrveranstaltung "Angewandte linguistische Datenverarbeitung" und beschäftigt sich mit den Erkennungsfehlern, die während einer Texterkennung (OCR) entstehen können. Solche Fehler können die Unterschlagung einiger Buchstaben innerhalb eines Wortes, die falsche Reihenfolge der Zeichen in einer Zeichenkette oder solche sein, die den Sinn des Satzes durch Fehlinformationen entstellen. In der Texterkennungstechnik werden heutzutage mehrere Methoden und Verfahren angewendet, um diesen Problemen entgegenzuwirken, die sich in ihrer Effizienz, Schnelligkeit, Korrektheit und Bedienerfreundlichkeit stark unterscheiden. Diese Arbeit wird sich deshalb nur auf den statistikbasierten Lösungsansatz wenden, dessen Grundlage die aufgestellten Mono-, Di-, Tri- und n-Gramm Tabellen von Wolfgang Schönpflug bilden. Es wird erst auf die typischen OCR-Fehler und ihre Ursachen eingegangen, um danach die Häufigkeitstabellen von Wolfgang Schönpflug auf ihren Aufbau hin zu analysieren. In Kapitel 2 geht es um den Lösungsansatz mit den Häufigkeitstabellen, ihre Implementierung, Form der Darstellung und Vorgehensweise. Die Diskussion über eine Internationalisierung des Verfahrens und die mögliche Erweiterbarkeit schließt die Arbeit ab. Zur Lektüre werden zur leichten Verständlichkeit Grundkenntnisse in der Programmiersprache Java und ihren Funktionen vorausgesetzt. Die Überlegungen für bestimmte Lösungsrealisierungen nehmen Bezug auf einige Java-spezifische Datenstrukturen und in Java bekannten Algorithmen.

24,50 CHF

Lieferbar


Artikelnummer 9783640731268
Produkttyp Buch
Preis 24,50 CHF
Verfügbarkeit Lieferbar
Einband Kartonierter Einband (Kt)
Meldetext Folgt in ca. 5 Arbeitstagen
Autor Erkin, Bilal
Verlag Grin Verlag
Weight 0,0
Erscheinungsjahr 20101029
Seitenangabe 20
Sprache ger
Anzahl der Bewertungen 0

Dieser Artikel hat noch keine Bewertungen.

Eine Produktbewertung schreiben