Konzept zum Einlesen von Handschriften von familysearch.org

Johannes Wolpers
18/1/2019

Gliederung

  • Problemstellung
  • Download der Dateien
  • Digitale Manuskriptanalyse - Probleme
  • OCR-generell
  • Diptychon-System
  • Transkibus-Projekt
  • Fazit

Problemstellung

  • Alle Einwanderer, die den Vornamen David haben, sollen gelistet werden (Uruguay, Passenger Lists, 1888-1980 von familysearch.org)
  • Einige sind bereits in maschinell lesbarer Schrift vorhanden, andere bloß handschriftlich
  • Eine Software, die in der Lage ist, historische Schriften in maschinell lesbare Schrift zu verwandeln wird gesucht

Download der Dateien

  • Am besten E-Mail schreiben, in der man um eine bequeme Downloadmöglichkeit aller gewünschten Daten bittet
  • Ansonsten: Mittels wget oder ähnlichem einloggen und die .xls und .jpg Dateien downloaden
  • Leider enthalten die URLs Tokens
  • Deswegen html-Dateien mit 'Regular Expressions' durchsuchen, um die Folge-URL zu finden

Digitale Manuskriptanalyse - Probleme

  • Unterschiedliche Handschriften über 100 Jahre, Formatierung ist nicht einheitlich
  • Fehler bei Handschriftenerkennung lassen sich kaum verhindern
  • Die KI muß erst trainiert werden, was den Aufwand noch vergrößert
  • Alles in allem wird es sehr viel effizienter sein, einen Studenten anzuheuern und ihn für 400€ das Logbuch per Hand durcharbeiten zu lassen, wenn es nur eine einmalige Angelegenheit ist
  • Geht es darum, viele Daten in maschinenlesbare Sprache zu verwandeln wird diese Methode natürlich ineffizient

OCR-generell

  • Eine Studie, bei der die Inhalte von (gedruckten!) Zeitungen aus dem 19. und 20. Jahrhundert verarbeitet wurden, bescheinigt Texterkennungsprogrammen eine Genauigkeit zwischen 81 und 99 Prozent
  • Eine Erkennungsgenauigkeit von 99 Prozent kann schnell zu einer Erkennungsgenauigkeit von nur 95 Prozent werden, wenn nicht die korrekte Erkennung von Buchstaben gemessen wird, sondern die fehlerfreie Erkennung ganzer Wörter
  • Die Erfassung von handschriftlichen Texten liefert im Normalfall keine befriedigenden Resultate. Das ist ein Gebiet, an dem noch aktiv geforscht wird

https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung

Wegen der genannten Schwierigkeiten greift man in der Regel gerade bei Handschriften auf die Methode des keying (d. h. dem manuellen Abtippen des Textes) zurück, um eine wissenschaftlich verwertbare Genauigkeit des digitalisierten Textes zu erreichen. Exemplarische Untersuchungen der Textsammlung des Deutschen Textarchivs haben ergeben, dass die Erfassungsgenauigkeit sehr viel höher ist, wenn statt einer automatisierten optischen Zeichenerkennung das manuelle Verfahren des Double Keyings eingesetzt wird. Im Double Keying-Verfahren erfassen zwei Personen den Text jeweils einmal manuel und vergleichen eventuelle Abweichungen.

Diptychon-System

  • Beim Diptychon handelt es sich um ein interaktives System, dass einem Fachkundigen dabei hilft historische Dokumente zu entziffern.
  • Dabei macht das System Vorschläge, um welche Zeichen es sich handeln könnte, kann den Übertragungsvorgang aber nicht automatisieren
  • Die Wörter können in einzelne Zeichen zerlegt werden, unabhängig vom Vorwissen über die einzelnen Handschriften (http://gepris.dfg.de/gepris/projekt/203606267/ergebnisse)
  • Historische Dokumente des Mittelalters sind kurz und haben einen uneinheitlichen Schreibstil, weswegen ein Mustererkennungsansatz nicht funktioniert

Transkibus-Projekt

  • Wird immer wieder als Hoffnungsträger für historische Handschrifterkennung genannt und liegt als Freeware vor, befindet sich allerdings noch in der Testphase
  • Das Programm sei in der Lage, eine Handschrift nach rund 100 Seiten (rund 20.000 Wörter) gut zu lesen, es ist also für unsere Zwecke nicht zu gebrauchen
  • Es kann allerdings sein, dass die Software sich weiterentwickelt. Umfangreiche Tutorials existieren jedenfalls bereits, und die Software kann einen gescannten handschriftlichen Text in einzelne Wörter unterteilen

Fazit

  • Von dem Standpunkt einer Kosten/Nutzen-Abwägung ist festzustellen, dass die Übertragung von einem historischen handschriftlichen Dokument in maschinenlesbare Sprache im Allgemeinen eine teure Angelegenheit ist.
  • Entweder ist die Ahnensuche herkömmlich oder aber eine Übertragung des Manuskripts per (double)keying durchzuführen
  • Alternativ kann man abwarten, bis die Software besser wird
  • Eine letzte Möglichkeit ist, dass der Kunde jeden Abend einen Teil des Logbuchs selbst nach seinen Ahnen durchforstet. Das spart ihm Geld und hilft bei Schlafproblemen