Machine Learning#
Machine-Learning-Verfahren durchziehen zunehmend auch die geisteswissenschaftliche Forschung – sei es in der Bildanalyse, der Textklassifikation oder der Sentiment-Analyse. Gerade im Kontext des anhaltenden LLM-Booms bot die DHd zahlreiche Beiträge, die konkrete Anwendungen erproben oder die Verwendung methodisch reflektieren. Für dieses Kapitel habe ich zwei Vorträge ausgewählt, die sich der automatisierten Extraktion und Erschließung historischer Quellen widmen – ein Thema, das meiner eigenen Forschungsarbeit besonders nahesteht.
Doctoral Consortium: Von der Handschrift zum Datensatz: Computergestützte Erschließung und Aufbereitung historischer Wetterdaten (Constantin Lehenmeier)#
Constantin Lehenmeier stellte sein Dissertationsprojekt zur computergestützten Erschließung historischer Wetterdaten vor, wobei die Modellierung von Tabellen als spezifische Datenstrukturen im Mittelpunkt stand – ein oft unterschätztes Problem, das er mit einer Kombination aus OCR-D, einem eigens trainierten YOLO-Modell und NER-Verfahren (HmBERT, GND-Verlinkung) angeht. Besonders interessant war die kritische Reflexion quantitativer Metriken: Sie validieren Modelle, nicht historische Korrektheit. Hervorzuheben ist außerdem der bewusste Einsatz von Open-Source-Software und -Modellen als konsequente Entscheidung für Verfügbarkeit, Nachnutzbarkeit und langfristige Nachhaltigkeit der erzeugten Ressourcen.
Automatisierte Datenextraktion im Rahmen des FWF-Projekts ‚Digitale Erschließung des Schematismus‘ (Bernhard Ortbauer)#
Bernhard Ortbauer stellte die automatisierte Datenextraktion im Rahmen des FWF-Projekts Digitale Erschließung des Schematismus vor, bei der Layout-Erkennung (YOLO, Transformer) und NER kombiniert werden, um die hierarchischen Informationsstrukturen des Drucks in einen Knowledge Graph zu überführen. Dabei setzt er sich mit Problemstellungen wie visueller Ähnlichkeit auseinander: Eindeutige Lösungen gibt es nicht – stattdessen müssen Regelmäßigkeiten systematisch ausgenutzt und semantische Informationen gezielt, aber sparsam einbezogen werden.