Nachrichten, Gerüchte, Meldungen und Berichte aus der IT-Szene

Redaktion: Heinz Schmitz


Modernes Tool für alte Texte

Druckschrift Narrenschiff
Seite aus einer französischen Version des „Narrenschiffs“. Solche alten Schriften lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln. (Quelle: Staats- und Universitätsbibliothek Dresden)

Historiker, Germanisten und andere Geisteswissenschaftler haben es oft mit schwierigen Forschungsobjekten zu tun: mit jahrhundertealten Druckwerken, die sich nicht leicht entziffern lassen und die oft schlecht erhalten sind. Viele dieser Dokumente sind inzwischen digitalisiert – in der Regel abfotografiert oder eingescannt – und stehen weltweit online zur Verfügung. Für die Forschung ist das schon einmal ein Fortschritt. Es gibt aber immer noch eine Herausforderung zu meistern: die digitalisierten alten Schriften mit Texterkennungs-Software in eine moderne Form zu bringen, die auch für Nicht-Fachleute und für Computer lesbar ist. Auf diesem Gebiet haben Wissenschaftler vom Zentrum für Philologie und Digitalität der Julius-Maximilians-Universität Würzburg (JMU) für eine deutliche Weiterentwicklung gesorgt.

 

Mit OCR4all stellt das JMU-Forschungsteam der Fachwelt ein neues Werkzeug zur Verfügung. Es setzt digitalisierte historische Drucke mit einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text um. Und es bietet eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig ist. Bei bisherigen Tools dieser Art war die Nutzerfreundlichkeit nicht sonderlich ausgeprägt, meist musste mit Programmierbefehlen hantiert werden.

 

Entwickelt in Kooperation mit Geisteswissenschaften

Das neue Werkzeug OCR4all wurde unter der Leitung von Christian Reul mit seinen Informatik-Fachkollegen Professor Frank Puppe (Lehrstuhl für Künstliche Intelligenz und angewandte Informatik) und Christoph Wick sowie mit Uwe Springmann, Fachmann für Digital Humanities, und zahlreichen Studierenden und Hilfskräften entwickelt.

 

Seine Wurzeln hat OCR4all im Kallimachos-Verbundprojekt der JMU, das vom Bundesministerium für Bildung und Forschung gefördert wird. Diese Kooperation zwischen Geisteswissenschaften und Informatik wird im neu gegründeten Zentrum für Philologie und Digitalität (ZPD) weitergeführt und institutionalisiert.

 

Bei der Entwicklung von OCR4all haben die Informatiker eng mit geisteswissenschaftlichen Disziplinen der JMU zusammengearbeitet – unter anderem mit der Germanistik und der Romanistik im Projekt „Narragonien digital“. Dort ging es darum, das „Narrenschiff“ digital aufzubereiten – eine Moralsatire von Sebastian Brant, ein Bestseller des 15. Jahrhunderts, der in viele Sprachen übersetzt wurde. Auch im Kolleg „Mittelalter und frühe Neuzeit“ der JMU wurde und wird OCR4all angewendet.

 

Jede Druckerei hatte ihre eigene Schrift

Christian Reul erklärt, worin eine Herausforderung bei der Entwicklung von OCR4all lag: Die automatische Texterkennung (OCR = Optical Character Recognition = optische Zeichenerkennung) funktioniere für moderne Schrifttypen seit längerer Zeit sehr gut. Für historische Schriften habe das bislang aber noch nicht gegolten.

 

„Eines der größten Probleme war die Typographie“, sagt Reul. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhundert keine einheitlichen Schriften verwendeten. „Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen.“

 

Fehlerrate unter ein Prozent gedrückt

Ob e oder c, ob v oder r – das ist in alten Drucken oft nicht einfach zu unterscheiden. Eine Software kann aber lernen, solche Feinheiten zu erkennen. Doch dafür muss sie zuerst an Beispielmaterial trainiert werden. In seiner Arbeit hat Reul Methoden entwickelt, um dieses Training effizienter zu machen. In einer Fallstudie mit sechs historischen Drucken aus den Jahren von 1476 bis 1572 konnte dadurch die Fehlerquote bei der automatischen Texterkennung im Schnitt von 3,9 auf 1,7 Prozent gesenkt werden.

 

Aber nicht nur die Methodik wurde verbessert. JMU-Informatiker Christoph Wick hat durch die Entwicklung des ebenfalls frei verfügbaren OCR-Tools Calamari, das mittlerweile vollständig in OCR4all integriert wurde, auch die technische Komponente entscheidend weiterentwickelt. Alles in allem ergaben sich daraus noch bessere Ergebnisse: Mittlerweile können selbst für die ältesten gedruckten Werke meistens Fehlerraten von weniger als einem Prozent erreicht werden.

 

Lexikalische Projekte

Reul hat auch Uni-externe Partner von der Qualität der Würzburger OCR- Forschung überzeugt. Gemeinsam mit dem „Zentrum für digitale Lexikographie der deutschen Sprache“ (Berlin) wurde Daniel Sanders‘ „Wörterbuch der deutschen Sprache“ digital erschlossen; eine Publikation hierzu ist auf dem Weg. Dieses Werk enthält pro Textzeile oft verschiedene Schrifttypen, die für jeweils andere semantische Informationen stehen. Hier wurde der bestehende Ansatz zur Zeichenerkennung so erweitert, dass sich neben dem Text auch die Typographie und damit die komplexe inhaltliche Struktur des Lexikons sehr exakt abbilden lassen.

 

Seine Doktorarbeit wird der Würzburger Informatiker demnächst abschließen, aber mit OCR will er auch künftig arbeiten: „Die Informatik, die dahinter steht, ist extrem spannend“, sagt er. Ein mögliches Projekt der näheren Zukunft: Die Macher des „Idiotikon“, eines Wörterbuchs der schweizerdeutschen Sprache, haben ihm signalisiert, dass sie das Würzburger Fachwissen gut brauchen könnten.

 

OCR4all steht auf der Plattform GitHub (mit Anleitungen und Anschauungsbeispielen) frei zur Verfügung.

 

Siehe auch:

https://github.com/OCR4all

https://github.com/Calamari-OCR

https://www.uni-wuerzburg.de/aktuelles/einblick/archiv/single/news/narrenschi/

https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_1.pdf

 

 

(Bildnachweis: Staats- und Universitätsbibliothek Dresden, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0/deed.de)

Zurück