it-begreifen-podcast-it-manager-ingo-luecker-it-laegue

In dieser Folge erfahren Sie alles rund um das Thema: „Was ist eigentlich OCR?“

Hinter der Abkürzung OCR verbirgt sich der Begriff „Optical Character Recognition“, der im deutschen auch als Texterkennung bekannt ist.

Das Ziel bei OCR ist also ganz einfach. Der PC beziehungsweise das Endgerät soll Texte auf Bildern erkennen und diese in ein bearbeitbares Textdokument umwandeln.

Der Vorteil, Dokumente nicht mehr einzeln händisch abtippen zu müssen liegt dabei natürlich auf der Hand, denn seien wir einmal ehrlich, welches Unternehmen hat dafür im normalen Tagesgeschäft schon Zeit. Wie das Ganze funktioniert wollen wir uns nun einmal näher anschauen.

Früher gelang Texterkennung nur mit speziell standardisierten Schriften, wie beispielsweise auf Checks, die dann mit Lesegeräten erkannt werden konnten. Heute können die verschiedenen Softwares auch normale Schriftbilder weitestgehend fehlerfrei „entschlüsseln“ und umwandeln.

Dabei erfolgt zunächst eine Trennung zwischen Text und eventuell vorhandenen Bildern bei einer Layoutanalyse. Es werden ebenfalls bereits Formatierungen analysiert und mit voreingestellten Algorithmen übernommen.

Erst im zweiten Teil geht es dann wirklich um das Textverständnis. Im Hintergrund hat die OCR-Software gängige Sprachmuster die ihr helfen Buchstaben von Zahlen und Groß- und Kleinschreibung zu unterscheiden. Dabei geht die Software vom Großen ins Kleine über, also von ganzen Textpassagen, zur Satz- und schließlich zur Buchstabenebene. Der Algorithmus vergleicht dabei konstant das gescannte Bild mit ihm bekannten Wort und Satzstrukturen und bei hoher Übereinstimmung wandelt er den erkannten Teil des Bildes dann in Buchstaben, aus denen er Worte und schließlich Sätze bildet – in ein Textdokument um, bis das am Ende mit geringer Fehlerwahrscheinlichkeit der Text vollständig umgewandelt ist.

Dieses Textdokument kann dann wie gewohnt gespeichert oder weiterbearbeitet werden und somit in Datenbanken beziehungsweise Dokumentenmanagementsystemen eingepflegt und sinnvoll genutzt werden.

 

OCR ähnliche Handschriftanalysen werden auch bei großen Unternehmen für eingehende Post genutzt, wobei dort auch beispielsweise Firmenstempel hinterlegt seien können anhand deren Muster die Software bereits die Herkunft des Briefes identifizieren kann. Dieses Verfahren wird auch oftmals für die Archivierung von Belegen oder ähnlichen Dokumenten genutzt, welche nach wie vor in Papierformat ausgestellt werden, was natürlich im Rahmen der Digitalisierung und dem gängigen Ziel so wenig herkömmliche Papierakten wie möglich im Unternehmen zu haben den Ablauf erheblich stört.

Neben den vielen Vorteilen gibt es natürlich für eine fehlerfreie Übertragung von gescannten Bildern trotzdem Grenzen:

  • Einen Besonderen Faktor spielt die Qualität des Scans, insbesondere der Kontrast zwischen Schrift und Hintergrund. Dies spielt besonders bei historischen Dokumenten eine Rolle, kann aber auch im ganz normalen Alltag zum Problem werden, da beispielsweise Belege schnell ausbleichen können oder Beschädigungen am Papier zu Erkennungsschwierigkeiten führen können.
  • Auch Schreibschrift Dokumente können unter Umständen zu Problemen führen, da dort die Trennung der Buchstaben sehr personenabhängig und nicht immer erkennbar ist.
  • Ebenfalls können Dokumente mit Spezialwörtern, beziehungsweise untypischen Abkürzungen den Algorithmus vor Probleme stellen, da dieser – einem Wörterbuch ähnlich – die „erkannten“ Buchstaben mit seinen hinterlegten Wörtern und Satzmustern vergleicht und demnach falsche Schlüsse ziehen könnte. Dieses Problem tritt allerdings hauptsächlich bei handschriftlichen Dokumenten auf.