Forschungsbericht 2013 - Max Planck Digital Library (MPDL)
Wie Forschungsdaten ins Netz einziehen
Vom Repositorium für Publikationsdaten zum Repositorium für Forschungsdaten
Die standardisierte Bereitstellung von Publikationsdaten, vor allem auch unter dem Aspekt der freien Zugänglichkeit, ist in den letzten Jahren immer mehr zu einer selbstverständlichen Aufgabe von Forschungsorganisationen geworden. Die Anzahl und die Akzeptanz von institutionellen Repositorien sind stetig gewachsen. Doch der Gedanke der freien Zugänglichkeit von (vor allem öffentlich geförderter) Forschung ist hiermit noch nicht zu Ende gedacht, denn die Publikation enthält in der Regel nur einen Ausschnitt der Daten, die generiert wurden. Daher ist es nur ein konsequentes Weiterdenken in der Open Access Debatte, wenn der Wunsch formuliert wird, auch Forschungsdaten auf standardisierte Weise online zu stellen. So heißt es in einem Nature-Beitrag: „More and more often these days, a research project's success is measured not just by the publications it produces, but also by the data it makes available to the wider community.″ [1]
Neben der Zugänglichkeit von Forschungsdaten ist auch die Gewährleistung von deren Nachhaltigkeit als Problem erkannt worden. So stellt die Allianz der deutschen Wissenschaftsorganisationen fest: „Qualitätsgesicherte Forschungsdaten bilden die Grundlage wissenschaftlichen Erkenntnisgewinns. Allein in Deutschland kostet es mehrere Milliarden Euro pro Jahr, diese Ergebnisse zu erstellen. Ein großer Teil dieser Daten wird jedoch von Forschenden oder Arbeitsgruppen nach Abschluss ihrer Vorhaben nicht angemessen dauerhaft archiviert und ist daher einer späteren Wiederverwertung nicht mehr zugänglich.” [2]
Die sinnvolle Nachnutzung von Forschungsdaten ist auch über die Archivierung hinaus nur möglich, wenn die Daten adäquat durchsuchbar sind und über standardisierte Exporte für eine Weiterverarbeitung bereit stehen [3]. Dies gilt im besonderen Maße für digital entstandene Daten (digital born data), welche aufgrund ihrer hohen Flüchtigkeit ohne standardisierte Speicherung und Bereitstellung auf Dauer verloren gehen [4].
Eine Software zur Veröffentlichung von Forschungsdaten ist imeji. Diese Open Source Anwendung wurde von der Max Planck Digital Library entwickelt und wird nun gemeinschaftlich mit der imeji Community weiterentwickelt. Zu dieser Gemeinschaft gehören unter anderem das Institut für Kunst- und Bildgeschichte der Humboldt Universität zu Berlin, die Leuphana Universität Lüneburg und das National Institute for Materials Science in Japan [5].
Das Ziel von imeji besteht darin, eine schlanke und flexible Anwendung zur Verfügung zu stellen, mit der Forschungsdaten aus den verschiedensten Forschungsbereichen verarbeitet und bereitgestellt werden können. Die entscheidende Funktionalität liegt hierbei im Angebot eines flexiblen Metadaten-Modells, welches für jede Sammlung frei definiert werden kann. Diese Funktionalität ist das Alleinstellungsmerkmal von imeji.
Ein Blick auf die Hauptfunktionalitäten von imeji...
... das Hochladen von Daten
Der Anwender hat die Möglichkeit, Daten durch einen einfachen Webuploader schnell und unkompliziert in imeji hochzuladen. Dabei gibt es softwareseitig keinerlei Einschränkungen in den Dateiformaten, die hochgeladen werden können. So ist gewährleistet, dass Forschungsdaten aus den verschiedensten Disziplinen und sogar native Formate unterstützt werden. Nach dem Hochladen erstellt imeji für alle Dateien, deren Format verarbeitet werden kann, zwei Vorschaubilder (Thumbnail und Web Auflösung). Dies ist bereits für über 100 Formate möglich. In allen anderen Fällen wird ein vordefiniertes Bild angezeigt. Die unveränderte originale Datei, welche mit einer Prüfnummer versehen wird, bleibt immer als Download verfügbar.
...das Metadaten Management
imeji Anwender können ihre Beschreibungsdaten selbst pflegen. Zur Definition des Metadatenprofils gehören die Feldnamen, der Datentyp (z. B. Text, Zahl, Datum, geografische Lage, URI, etc.) sowie die verwendete Sprache für die Beschreibungsdaten. Optional können den einzelnen Metadatenfeldern ein kontrolliertes Vokabular oder eigens vordefinierte Werte zugewiesen werden. Der imeji Editor gewährleistet hierbei die individuelle Gestaltung eines Metadatenprofils; so einfach wie möglich, so komplex wie nötig.
Es besteht zudem die Möglichkeit, ein vorhandenes Metadatenprofil als Vorlage (Template) für weitere Sammlungen zu verwenden, wodurch die Erstellung ähnlicher Sammlungen erheblich erleichtert wird. Jeder Metadateneintrag erhält ein sogenanntes Label/Etikett, über welches komplexe Suchanfragen an den Datenbestand ermöglicht werden.
... Zusammenarbeit ermöglichen
Um eine Zusammenarbeit an Forschungsdaten zu ermöglichen, bietet imeji die Share Funktionalität an. Hier kann ein Anwender seine Sammlung oder sein Album mit anderen Wissenschaftlern teilen, um gemeinsam daran zu arbeiten. imejis Rechtemanagement ermöglicht es hierbei, einen lediglich lesenden Zugriff auf die Daten (Rolle Viewer) zu gewähren oder die vollen Rechte, beispielsweise an einer Sammlung (Rolle Collection Editor), zu teilen. Somit kann imeji die Basis einer Zusammenarbeit bilden, indem Anwender einfach und unkompliziert Daten austauschen oder einsehen können, ohne diese per Email verschicken oder auf Servern von Drittanbietern, wie zum Beispiel Dropbox, ablegen zu müssen.
... Dissemination von Forschungsdaten
Ein Austauschen von Forschungsdaten dient nicht allein der intellektuellen Aufarbeitung durch menschliche Anwender. Durch maschinenlesbare Schnittstellen und Austauschformate ist es auch anderen Systemen möglich, Daten von imeji abzugreifen und weiterzuverarbeiten. Diese Grundfunktionalität von semantic web und linked data [6] ermöglichen Szenarien wie zum Beispiel die automatisierte Darstellung von ausgewählten Forschungsdaten auf Projektseiten oder die Auffindbarkeit von Datensätzen in Meta-Suchmaschinen. Dies wird in imeji durch das Bereitstellen von standardisierten Schnittstellen ermöglicht. Zum einen bietet es einen RDF Export mit allen Metadaten eines Datensatzes sowie eine OAI-PMH Schnittstelle (Open Archives Initiative - Protocol for Metadata Harvesting) [7], wie sie auch von den meisten großen Repositorien wie beispielsweise Europeana oder arxiv angeboten werden.
... zitierfähige Forschungsdaten
Jedem Objekt in imeji, beispielsweise einem Datensatz, einer Sammlung oder einem Metadatenprofil, wird ein eigener URI (Unique Resource Identifier) zugewiesen. So können Forschungsdaten eindeutig in Publikationen oder auf Webseiten referenziert werden.
Zusätzlich können in imeji automatisch Zitationen aus Publikationen erzeugt werden, welche in einem auf PubMan basierenden Repositorium abgelegt wurden (z. B. MPG PuRe [8]). Hier wird automatisch ein Auszug des Artikels in einem vordefinierten Zitationsstil eingebunden und so die Zugehörigkeit von Forschungsdaten zu einer Publikation auf den ersten Blick sichtbar gemacht.
Die Daten selbst werden zur Infrastruktur
Dieses Statement der High Level Expert Group on Scientific Data [9] formuliert den Grundgedanken der imeji Anwendung. Deren Ziel ist es nicht, spezialisierte Funktionen für die unterschiedlichen Typen von Forschungsdaten anzubieten, hier gibt es bereits etablierte Tools, die sich in den verschiedenen Communities bewährt haben. Vielmehr sollte der Fokus eines Forschungsdaten-Repositoriums darauf liegen, Daten standardisiert abzulegen, zu beschreiben und technische Schnittstellen zu den bereits existierenden Tools zu bieten, um als Katalysator für die Nachnutzung zu dienen [10].
Die abgebildeten Screenshots entstammen der imeji Instanz der Max Planck Digital Library, http://edmond.mpdl.mpg.de/imeji/.