
Workflow OCR4all
Die Texterkennungssoftware OCR4all kommt bei historischen Drucken mit sehr gutem Erfolg zum Einsatz. Jetzt wird sie auf alte Handschriften trainiert.
Heutige Standardschriften wie Calibri oder Times New Roman einzulesen, ist für moderne Texterkennungssoftware, kurz OCR, kein Problem. Schwieriger wird es bei historischen Drucken. Denn je weiter man in die Geschichte zurückblickt, desto variantenreicher werden die Schriften – bis hinein in eine Zeit, in der jeder Drucker seine eigenen Schriftsets schnitzte.
Darum gibt es eine gute Nachricht für alle, die mit derartigem historischem Material arbeiten: Das Programm OCR4all ist eine Texterkennungssoftware, die historische Druckschriften erkennt und in computerlesbaren Text umwandelt. Um es zu bedienen, sind keinerlei Programmierkenntnisse nötig.
OCR4all steht seit 2019 im Web weltweit kostenlos zur Verfügung. Rund 5.000 Mal wurde es inzwischen heruntergeladen; ein vergleichbares Angebot im Open-Source-Bereich gab es bis dato nicht. Entwickelt wurde das Tool von einem interdisziplinären Team um Dr. Christian Reul, Leiter der Digitalisierungseinheit am Zentrum für Philologie und Digitalität „Kallimachos“ (ZPD) der Julius-Maximilians-Universität (JMU).
OCR4all ging aus dem vom Bundesforschungsministerium geförderten Kallimachos-Verbundprojekt der JMU hervor. Dieses Projekt schlug Brücken zwischen den Geisteswissenschaften, der Informatik und den Digital Humanities. Anfangs ging es bei OCR4all darum, im Teilprojekt Narragonien digital Sebastian Brants Narrenschiff digital aufzubereiten, eine Moralsatire aus dem 15. Jahrhundert.
Werkspezifische Modelle sind sehr genau Weiterlesen →