Erste OCR-Tests abgeschlossen

Die niedrige Fehlerquote der ersten Volltextresultate begeistert das ZEDHIA-Projektteam.


Die Mitte Mai durchgeführten OCR (= Optical Character Recognition) – Tests an vier ausgewählten Compass-Bänden aus den Jahren 1882, 1906, 1928 und 1930 haben ein unvermutet gutes Ergebnis geliefert. Sowohl Treventus Mechatronics GmbH als auch das ZEDHIA-Projektteam haben unabhängig voneinander den generierten Volltext einer Prüfung unterzogen und sind zu dem erfreulichen Schluss gelangt, dass nach heutiger State of the Art kein signifikant besseres automatisiertes Ergebnis möglich ist. „Die überraschend hohe Qualität der OCR-Ergebnisse bringt uns im Projekt einen großen Schritt vorwärts, da die Sicherung der für ZEDHIA notwendigen Qualität der Inhalte einfacher und schneller erreicht werden kann“, so Mag. Nikolaus Futter, Geschäftsführer der Compass-Verlags GmbH.

Dass der Volltext dennoch nicht völlig fehlerfrei ist, liegt an vielerlei Parametern: Maschinell nicht übersetzbare, weil im Unicode nicht vorhandene Sonderzeichen, ein schlechtes Druckbild oder die Verwendung der gebrochenen Schriftart Fraktur sind nur einige Gründe, weshalb heutige OCR-Softwaren eine gewisse Fehlerquote nicht vermeiden können.

Das ZEDHIA-Projektteam wird sich in Zukunft intensiv mit der Verbesserung des Volltextes, über den auch eine Suchfunktion des ZEDHIA-Portals ablaufen wird, beschäftigen. In Frage kommen sowohl manuelle Nachkorrekturen als auch der Einsatz von Algorithmen für eine regelbasierte und systematische