© Sandra Lehecka

Volltextdigitalisierung

In Vorbereitung der Volltextdigitalisierung werden die Bild-Digitalisate aus dem ANNO-Portal der Österreichischen Nationalbibliothek zunächst am ACDH-CH vorbearbeitet (z.B. gerade gerückt), um dann in die Texterkennungsplattform TRANSKRIBUS überspielt zu werden, wo ihr Layout (Textregionen, Zeilen und Wörter) seitenweise automatisch eingelesen und eine Lesereihenfolge für die Transkription vorgeschlagen wird. Unter Anwendung eines kombinierten Ansatzes von Optical Character Recognition (OCR) und Handwritten Text Recognition (HTR) werden die einzelnen Einheiten schließlich eingelesen und in computerlesbaren Text transformiert.

 

Der automatisiert erstellte, unkorrigierte Text muss dann in mehreren Schritten, unter erheblichem zeitlichen Aufwand und gemäß der im Projekt entwickelten Transkriptionsrichtlinien manuell nachbearbeitet werden. Die erzeugten Textdaten geben den historischen Sprachstand unverändert wieder, erreichen nach den genannten Verarbeitungsschritten eine Genauigkeit von 99,7 Prozent und dienen dem Training neuer Texterkennungsmodelle mit dem Ziel, weitere Ausgaben bereits mit einer höheren Genauigkeit und Trefferquote automatisch erkennen zu können. Unser Modell steht zur Nachnutzung zur Verfügung – Sie können es hier ausprobieren oder über Transkribus Genaueres erfahren.


 

Trotz der Trainingserfolge werden Zeitungstexte aus dieser Zeitperiode immer der manuellen Nachkorrektur bedürfen, wobei zu hoffen bleibt, dass sich der Aufwand mit der Zeit weiter verringert. Das Bemühen um einen hochwertigen Volltext, der XML-ifiziert und gemäß internationaler Standards der Text Encoding Initiative (TEI) kodiert wird, steht bei der Erstellung dieses historischen Zeitungskorpus jedenfalls an erster Stelle.

Wenn Sie Fehler im DIGITARIUM entdecken, nehmen Sie bitte Kontakt auf – wir sind um deren baldige Behebung bemüht!