Forschungsbericht 2019 - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)

Archival Cultural Heritage Online – eine Infrastruktur zur Langzeitarchivierung von Forschungsdaten

Autoren
Wieder, Philipp
Abteilungen

Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) – Arbeitsgruppe eScience

Zusammenfassung
Das Forschungsprogramm GMPG hat sich der Untersuchung der Geschichte der Max-Planck-Gesellschaft verschrieben. Ein integraler Bestandteil des Programms ist die massenhafte Digitalisierung von Akten sowie die langfristige Sicherung und Bereitstellung der resultierenden Forschungsdaten. Das Projekt „Archival Cultural Heritage Online“ wurde ins Leben gerufen, um die notwendige Infrastruktur zur Zusammenführung von Digitalisierungsworkflow, Langzeitarchivierung und virtueller Arbeitsumgebung zu realisieren. Dieser Beitrag beschreibt das zugrunde liegende Konzept sowie den implementierten Service.

Kontext und Motivation

Das Forschungsprogramm „Geschichte der Max-Planck-Gesellschaft“ (GMPG) [1] untersucht die Entwicklung der Max-Planck-Gesellschaft sowohl im zeithistorischen als auch im wissenschaftshistorischen Kontext von ihrer Gründung 1948 bis zum Ende der Präsidentschaft Hubert Markls 2002. Zudem wird die Entwicklung des Programms „Aufbau Ost“ bis in das Jahr 2005 betrachtet.

Eine zentrale Rolle kommt dabei der Verfügbarkeit der von den Forschenden benötigten Quellen zu. Dazu zählen neben Veröffentlichungen der MPG und Interviews mit Zeitzeugen insbesondere Verwaltungsschrifttum, Korrespondenzen sowie Vor- und Nachlässe aus den Archiven. Letztgenannte Quellen umfassen dabei mehr als drei Regalkilometer Akten, von denen seit 2018 in einer Massendigitalisierungskampagne mehr als 30.000 digitalisiert werden.

Die Motivation des Projektes „ArCHO: Archival Cultural Heritage Online“ ist die Schaffung der wissenschaftlichen, technischen und datenschutzrechtlichen Voraussetzungen für die Langzeitspeicherung von großen Mengen von Forschungsdaten für das Forschungsprogramm GMPG. Neben der eigentlichen Speicherung von mehr als 500 TByte an Daten stehen dabei zudem die Integration der Daten in diverse Datenbanken sowie die einfache Nutzung und Anwendung quantitativer Forschungsmethoden im Fokus. ArCHO wird am Beispiel von GMPG als generische Infrastruktur entwickelt, die allen Max-Planck-Instituten zur Verfügung stehen wird. Erleichtert wird dies durch den modularen Aufbau und die forschungsnahe Entwicklung in enger Zusammenarbeit mit GMPG.

Anforderungen und Konzept

Eine initiale Analyse ergab eine Reihe funktionaler und nichtfunktionaler Anforderungen, die von keiner bereits existierenden Forschungsinfrastruktur vollumfänglich erfüllt wurden. Neben der Zusammenführung von Digitalisierungsworkflow, Langzeitarchivierung und virtueller Arbeitsumgebung für die Forschenden in ein Gesamtsystem bedurften insbesondere die hohen Anforderungen an Datenschutz und Informationssicherheit spezifische Konzepte und technische Lösungen. Beispielhaft seien hier das Sicherheitsstufenmodel für Datenmaterial, die abgestuften Zugriffsrechte für die Forschenden und die durchgängige Gewährleistung der technischen Sicherheit genannt.

Eine weitere Anforderung war die möglichst umfangreiche Nutzung bereits existierender und bewährter Standards und Komponenten, um die Risiken im Rahmen der digitalen Langzeitarchivierung zu minimieren, die eine vollständige Eigenentwicklung zwangsläufig mit sich brächte. Daher wurde der Metadata Encoding and Transmission Standard (METS) [2] für die Kodierung der Metadaten bestimmt und für die Auswahl der Komponente zur Langzeitarchivierung ein zum „Open Archival Information System“-Referenzmodell [3] konformes System gefordert. Des Weiteren sieht das Konzept vor, dass die im System gespeicherten Forschungsdaten auch ohne die in ArCHO entwickelte Forschungsinfrastruktur auffindbar, zugreifbar und lesbar sind. Dazu werden unter anderem Persistent Identifiers verwendet [4]. Zu guter Letzt ist die Infrastruktur durch ArCHO so zu entwickeln, dass neben GMPG auch weitere Nutzungsszenarien umgesetzt werden können.

Umsetzung

Die Umsetzung der oben genannten Anforderungen wurde als „Archival Cultural Heritage Online“ realisiert, eine als Service bereitgestellte Forschungsinfrastruktur, die die folgenden Teilkomponenten integriert:

  1. Umsetzung des Digitalisierungsworkflows: Verschiedene Datenprodukte (Master und Derivate der Akten wie PDF und OCR) sowie die zugehörigen Metadaten werden automatisch erzeugt.
  2. Bereitstellung von Online-Daten: Ausgewählte Datenobjekte stehen den Forschenden im direkten Zugriff zur Verfügung.
  3. Langzeitarchivierung: Ein generischer Archivierungsdienst ist integriert und die archivierten Datenobjekte sind mit den Online-Daten verknüpft.
  4. Rechtssicheres Datenmanagement: Daten sind gegen den unkontrollierten Abfluss durch technische und organisatorische Maßnahmen gesichert.
  5. Authentifizierung und Autorisierung: Ein policy-basiertes Rechtemanagement erlaubt die Nutzung ausschließlich durch zugelassene Personen.
Abb. 1: Übersicht über die Architektur des Archival Cultural Heritage Online Service

Abbildung 1 zeigt in vereinfachter Form die Architektur von ArCHO. In einem ersten Schritt werden die Master-Dateien als Resultat der Digitalisierung in das Kernmodul „ArCHO Core“ eingeliefert und zur Erzeugung von Derivaten an ein weiteres Modul übergeben. Dabei wird die Software Goobi eingesetzt, um die entsprechenden Workflows zu steuern. Die Derivate, hauptsächlich PDF-Versionen der Master-Dateien sowie die Resultate der automatischen Texterkennung, werden über ein Repository den Forschenden als Teil der Forschungsdaten des Programms GMPG zur Verfügung gestellt. Parallel werden die Master-Dateien sowie die im METS-Format gespeicherten Metadaten der Langzeitarchivierung übergeben und dauerhaft sicher gespeichert. Zudem werden die in das Archiv eingelieferten Master-Dateien wie auch die Metadaten vor der Löschung der durch die Digitalisierung erzeugten Daten geprüft. Dadurch wird die Integrität der Daten sichergestellt und die zukünftige Erzeugung verbesserter Derivate, insbesondere durch verbesserte Texterkennungsverfahren, ermöglicht.

Ausblick

ArCHO ist seit 2018 produktiv und stellt den Forschenden eine wachsende Anzahl digitaler Objekte zur Verfügung. Die Langzeitarchivierung ist integraler Bestandteil der Forschungsinfrastruktur und realisiert die dauerhafte Sicherung der Quellen. Gegenwärtig arbeiten die Projektpartner an der Generalisierung von ArCHO, um den Service für weitere Forschungsvorhaben verfügbar zu machen.

Literaturhinweise

1.
Schmaltz, F.; Renn, J.; Reinhardt, J.; Kocka. J.
Research Program History of the Max Planck Society: Report 2014-2017
Berlin, Germany (2017)
2.
Cundiff, M.
An introduction to the Metadata Encoding and Transmission Standard (METS)
Library Hi Tech 22, 52-64 (2004)
3.
McMeekin, S. M.
With a Little Help from OAIS: Starting down the Digital Curation Path
Journal of the Society of Archivists 32, 241-253 (2011)
4.
Koulouzis, S.; Mousa, R.; Karakannas, A.; de Laat, C.; Zhao, Z.
Information Centric Networking for Sharing and Accessing Digital Objects with Persistent Identifiers on Data Infrastructures
Proceedings of the 18th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID), Washington, DC, USA, 661-668 (2018)
Zur Redakteursansicht