

Der automatisiert erstellte, unkorrigierte Text muss dann in mehreren Schritten, unter erheblichem zeitlichen Aufwand und gemäß der im Projekt entwickelten Transkriptionsrichtlinien manuell nachbearbeitet werden. Die erzeugten Textdaten geben den historischen Sprachstand unverändert wieder, erreichen nach den genannten Verarbeitungsschritten eine Genauigkeit von 99,7 Prozent und dienen dem Training neuer Texterkennungsmodelle mit dem Ziel, weitere Ausgaben bereits mit einer höheren Genauigkeit und Trefferquote automatisch erkennen zu können. Derzeit ist bereits das fünfte Modell in Verwendung – zu Testzwecken werden damit auch die Volltexte der historischen Ausgaben der „Zürcher Zeitung“ verbessert.
Trotz der Trainingserfolge werden Zeitungstexte aus dieser Zeitperiode immer der manuellen Nachkorrektur bedürfen, wobei zu hoffen bleibt, dass sich der Aufwand mit der Zeit weiter verringert. Das Bemühen um einen hochwertigen Volltext, der XML-ifiziert und gemäß internationaler Standards der Text Encoding Initiative (TEI) kodiert wird, steht bei der Erstellung dieses historischen Zeitungskorpus jedenfalls an erster Stelle.

Wenn Sie Fehler im DIGITARIUM entdecken, nehmen Sie bitte Kontakt auf – wir sind um deren baldige Behebung bemüht!