Forschungsbericht 2014 - Max Planck Digital Library (MPDL)

Wie Forschungsdaten ins Netz einziehen

Autoren
Kleinfercher, Friederike
Abteilungen
Max Planck Digital Library (MPDL), Innovations, München
Zusammenfassung
In der Wissenschaftswelt wächst das Bewusstsein, dass nicht nur die Publikation als Hauptergebnis eines wissenschaftlichen Prozesses zu archivieren ist, sondern auch der Zugriff auf die dazugehörigen Forschungsdaten ermöglicht werden sollte. Mit der Open Source Web-Anwendung imeji bietet die Max Planck Digital Library eine Software und einen Service für das nachhaltige Publizieren von Forschungsdaten. In einem Satz bedeutet dies: imeji ermöglicht die Zitierfähigkeit von Forschungsobjekten durch das Beschreiben, Anreichern, Teilen, Bereitstellen und Verlinken von Daten.

Vom Repositorium für Publikationsdaten zum Repositorium für Forschungsdaten

Die standardisierte Bereitstellung von Publikationsdaten, vor allem auch unter dem Aspekt der freien Zugänglichkeit, ist in den letzten Jahren immer mehr zu einer selbstverständlichen Aufgabe von Forschungsorganisationen geworden. Die Anzahl und die Akzeptanz von institutionellen Repositorien sind stetig gewachsen. Doch der Gedanke der freien Zugänglichkeit von (vor allem öffentlich geförderter) Forschung ist hiermit noch nicht zu Ende gedacht, denn die Publikation enthält in der Regel nur einen Ausschnitt der Daten, die generiert wurden. Daher ist es nur ein konsequentes Weiterdenken in der Open Access Debatte, wenn der Wunsch formuliert wird, auch Forschungsdaten auf standardisierte Weise online zu stellen. So heißt es in einem Nature-Beitrag: „More and more often these days, a research project's success is measured not just by the publications it produces, but also by the data it makes available to the wider community.″ [1]

Neben der Zugänglichkeit von Forschungsdaten ist auch die Gewährleistung von deren Nachhaltigkeit als Problem erkannt worden. So stellt die Allianz der deutschen Wissenschaftsorganisationen fest: „Qualitätsgesicherte Forschungsdaten bilden die Grundlage wissenschaftlichen Erkenntnisgewinns. Allein in Deutschland kostet es mehrere Milliarden Euro pro Jahr, diese Ergebnisse zu erstellen. Ein großer Teil dieser Daten wird jedoch von Forschenden oder Arbeitsgruppen nach Abschluss ihrer Vorhaben nicht angemessen dauerhaft archiviert und ist daher einer späteren Wiederverwertung nicht mehr zugänglich.” [2]

Die sinnvolle Nachnutzung von Forschungsdaten ist auch über die Archivierung hinaus nur möglich, wenn die Daten adäquat durchsuchbar sind und über standardisierte Exporte für eine Weiterverarbeitung bereit stehen [3]. Dies gilt im besonderen Maße für digital entstandene Daten (digital born data), welche aufgrund ihrer hohen Flüchtigkeit ohne standardisierte Speicherung und Bereitstellung auf Dauer verloren gehen [4].

Eine Software zur Veröffentlichung von Forschungsdaten ist imeji. Diese Open Source Anwendung wurde von der Max Planck Digital Library entwickelt und wird nun gemeinschaftlich mit der imeji Community weiterentwickelt. Zu dieser Gemeinschaft gehören unter anderem das Institut für Kunst- und Bildgeschichte der Humboldt Universität zu Berlin, die Leuphana Universität Lüneburg und das National Institute for Materials Science in Japan [5].

Das Ziel von imeji besteht darin, eine schlanke und flexible Anwendung zur Verfügung zu stellen, mit der Forschungsdaten aus den verschiedensten Forschungsbereichen verarbeitet und bereitgestellt werden können. Die entscheidende Funktionalität liegt hierbei im Angebot eines flexiblen Metadaten-Modells, welches für jede Sammlung frei definiert werden kann. Diese Funktionalität ist das Alleinstellungsmerkmal von imeji.

Ein Blick auf die Hauptfunktionalitäten von imeji...

... das Hochladen von Daten

original
Abb. 1: Schnell und einfach: der Webupload von imeji

Der Anwender hat die Möglichkeit, Daten durch einen einfachen Webuploader schnell und unkompliziert in imeji hochzuladen. Dabei gibt es softwareseitig keinerlei Einschränkungen in den Dateiformaten, die hochgeladen werden können. So ist gewährleistet, dass Forschungsdaten aus den verschiedensten Disziplinen und sogar native Formate unterstützt werden. Nach dem Hochladen erstellt imeji für alle Dateien, deren Format verarbeitet werden kann, zwei Vorschaubilder (Thumbnail und Web Auflösung). Dies ist bereits für über 100 Formate möglich. In allen anderen Fällen wird ein vordefiniertes Bild angezeigt. Die unveränderte originale Datei, welche mit einer Prüfnummer versehen wird, bleibt immer als Download verfügbar.

...das Metadaten Management

original
Abb. 2: Der Metadaten Editor ermöglicht das Erstellen komplexer Metadatenprofile

imeji Anwender können ihre Beschreibungsdaten selbst pflegen. Zur Definition des Metadatenprofils gehören die Feldnamen, der Datentyp (z. B. Text, Zahl, Datum, geografische Lage, URI, etc.) sowie die verwendete Sprache für die Beschreibungsdaten. Optional können den einzelnen Metadatenfeldern ein kontrolliertes Vokabular oder eigens vordefinierte Werte zugewiesen werden. Der imeji Editor gewährleistet hierbei die individuelle Gestaltung eines Metadatenprofils; so einfach wie möglich, so komplex wie nötig.

Es besteht zudem die Möglichkeit, ein vorhandenes Metadatenprofil als Vorlage (Template) für weitere Sammlungen zu verwenden, wodurch die Erstellung ähnlicher Sammlungen erheblich erleichtert wird. Jeder Metadateneintrag erhält ein sogenanntes Label/Etikett, über welches komplexe Suchanfragen an den Datenbestand ermöglicht werden.

... Zusammenarbeit ermöglichen

Um eine Zusammenarbeit an Forschungsdaten zu ermöglichen, bietet imeji die Share Funktionalität an. Hier kann ein Anwender seine Sammlung oder sein Album mit anderen Wissenschaftlern teilen, um gemeinsam daran zu arbeiten. imejis Rechtemanagement ermöglicht es hierbei, einen lediglich lesenden Zugriff auf die Daten (Rolle Viewer) zu gewähren oder die vollen Rechte, beispielsweise an einer Sammlung (Rolle Collection Editor), zu teilen. Somit kann imeji die Basis einer Zusammenarbeit bilden, indem Anwender einfach und unkompliziert Daten austauschen oder einsehen können, ohne diese per Email verschicken oder auf Servern von Drittanbietern, wie zum Beispiel Dropbox, ablegen zu müssen.

... Dissemination von Forschungsdaten

Ein Austauschen von Forschungsdaten dient nicht allein der intellektuellen Aufarbeitung durch menschliche Anwender. Durch maschinenlesbare Schnittstellen und Austauschformate ist es auch anderen Systemen möglich, Daten von imeji abzugreifen und weiterzuverarbeiten. Diese Grundfunktionalität von semantic web und linked data [6] ermöglichen Szenarien wie zum Beispiel die automatisierte Darstellung von ausgewählten Forschungsdaten auf Projektseiten oder die Auffindbarkeit von Datensätzen in Meta-Suchmaschinen. Dies wird in imeji durch das Bereitstellen von standardisierten Schnittstellen ermöglicht. Zum einen bietet es einen RDF Export mit allen Metadaten eines Datensatzes sowie eine OAI-PMH Schnittstelle (Open Archives Initiative - Protocol for Metadata Harvesting) [7], wie sie auch von den meisten großen Repositorien wie beispielsweise Europeana oder arxiv angeboten werden.

... zitierfähige Forschungsdaten

original
Abb. 3: Ein Datensatz in der Einzelansicht mit allen Metadaten

Jedem Objekt in imeji, beispielsweise einem Datensatz, einer Sammlung oder einem Metadatenprofil, wird ein eigener URI (Unique Resource Identifier) zugewiesen. So können Forschungsdaten eindeutig in Publikationen oder auf Webseiten referenziert werden.

Zusätzlich können in imeji automatisch Zitationen aus Publikationen erzeugt werden, welche in einem auf PubMan basierenden Repositorium abgelegt wurden (z. B. MPG PuRe [8]). Hier wird automatisch ein Auszug des Artikels in einem vordefinierten Zitationsstil eingebunden und so die Zugehörigkeit von Forschungsdaten zu einer Publikation auf den ersten Blick sichtbar gemacht.

Die Daten selbst werden zur Infrastruktur

Dieses Statement der High Level Expert Group on Scientific Data [9] formuliert den Grundgedanken der imeji Anwendung. Deren Ziel ist es nicht, spezialisierte Funktionen für die unterschiedlichen Typen von Forschungsdaten anzubieten, hier gibt es bereits etablierte Tools, die sich in den verschiedenen Communities bewährt haben. Vielmehr sollte der Fokus eines Forschungsdaten-Repositoriums darauf liegen, Daten standardisiert abzulegen, zu beschreiben und technische Schnittstellen zu den bereits existierenden Tools zu bieten, um als Katalysator für die Nachnutzung zu dienen [10].

Die abgebildeten Screenshots entstammen der imeji Instanz der Max Planck Digital Library, http://edmond.mpdl.mpg.de/imeji/.

Literaturhinweise

1.
Nature Editorial
Data's shameful neglect
Nature 461,145; doi:10.1038/461145a
2.
Allianz der Wissenschaftsorganisationen
Schwerpunktinitiative "Digitale Information" der Allianz der deutschen Wissenschaftsorganisationen
http://www.allianzinitiative.de/
3.
Schofield PN; Bubela T; Weaver T; Portilla L; Brown SD; Hancock JM; Einhorn D; Tocchini-Valentinin G; Hrabe de Angelis M; Rosenthal N
Post-publication sharing of data and tools
Nature 461, 171-173 (2009)
4.
Bulatovic, N.; Dreyer, M.; Kleinfercher, F.; Schlender, M.; Asshauer, K.; Busse, J.; Schelbert, G.; Röder, J.; Nguyen, H.; Saquet, B.
Digitale Bildarchive für Kultur und Wissenschaft
Kultur und Informatik - Aus der Vergangenheit in die Zukunft Jürgen Sieck; Regina Franken-Wendelstrof; 2012
5.
European Union
Riding the wave. How Europe can gain from the rising tide of scientific data
Final report of the High Level Expert Group on Scientific Data. A submission to the European Commission. October 2010
6.
Bulatovic, N.; Dreyer, M.; Saquet, B.; Koller, K.; Haarländer, M.; Frank, W.; Yu, L.; Kiefl, R.
IMEJI: towards collaborative metadata enrichment
Proceedings of Open Repositories 2011, Austin, USA, 2011
Zur Redakteursansicht