Forschungsbericht 2013 - Max-Planck-Institut für Psycholinguistik

Die sprachliche Vielfalt der Welt erfassen: The Language Archive

Autoren
Klein, Wolfgang
Abteilungen
Max-Planck-Institut für Psycholinguistik, Nijmegen
Zusammenfassung
Weil sprachliche Systeme sehr komplex sind und Sprachdokumentation lange auf Papier und Bleistift angewiesen war, sind nur wenige der 7000 Sprachen gut beschrieben. Audio- und Videoaufzeichnungen sowie digitale Techniken ermöglichen nun den Aufbau von Sprachenarchiven. Eines der größten ist The Language Archive (TLA) am MPI für Psycholinguistik; es wird seit 2011 gemeinsam von der MPG, der Niederländischen Akademie der Wissenschaften und der Berlin-Brandenburgischen Akademie der Wissenschaften finanziert.

Von den 6000 bis 7000 Sprachen, die es derzeit noch auf der Welt gibt, sind nur wenige verlässlich in ihren grammatischen und lexikalischen Eigenschaften beschrieben. Nimmt man einmal als Maßstab, dass es für eine mehr als oberflächliche Beschreibung mindestens drei Werke zur Grammatik und drei zum Wortschatz der betreffenden Sprache geben muss, dann trifft dies auf schätzungsweise 100 bis 150 zu. Das sind etwa zwei Prozent aller Sprachen; von den übrigen 98 Prozent wissen wir wenig, weniger, so gut wie nichts. Das liegt zum einen an der unerhörten Komplexität eines jeden sprachlichen Systems, so wie es eine Sprachgemeinschaft über lange Zeit entwickelt hat, zum anderen daran, dass es für die meisten Sprachen bis heute an verlässlichen Daten fehlt. Bis vor einigen Jahrzehnten gab es außer Bleistift und Papier kaum Möglichkeiten, eine bislang unbekannte oder wenig erforschte Sprache aufzuzeichnen, um sie dann anhand dieses Materials sorgfältig beschreiben zu können. Unsere Vorstellungen von der Natur der menschlichen Sprache beruhen daher weitestgehend auf einigen wenigen Beispielen wie Griechisch, Latein, Englisch, Deutsch, Chinesisch (dies schon weniger) und ein paar Dutzend weiteren. Das führt nicht nur zu einem einseitigen und verzerrten Bild von der Fülle möglicher sprachlicher Strukturen, sondern auch zu sehr unzulänglichen Vorstellungen davon, wie Sprachproduktion, Sprachverstehen und Spracherwerb – die drei klassischen Arbeitsgebiete der Psycholinguistik – funktionieren. Der Erstspracherwerb des Kindes wie der Erwerb weiterer Sprachen im Kindes- oder Erwachsenenalter sind überaus komplexe Prozesse, die sich über viele Jahre erstrecken, eine erhebliche Variabilität zeigen und deren Verständnis, wenn es auf gut abgesicherten und wohlgegründeten Befunden beruhen soll, eine ungeheure Datenmenge und deren sorgfältige Analyse erfordern. Für das Deutsche – eine der besterforschten Sprachen der Welt – gibt es vielleicht ein Dutzend Longitudinalcorpora, das heißt Datensammlungen, die den Spracherwerb eines Kindes über mehrere Jahre hinweg abbilden; und das ist schon ungewöhnlich viel.

Neue Techniken zur Aufzeichnung von Sprachen

Diese Situation hat sich zunehmend geändert, seit es möglich ist, Sprachdaten mit Audio- oder Videogeräten in hoher Qualität aufzuzeichnen. Von ganz besonderer Bedeutung ist dies für die zahlreichen vom Aussterben bedrohten Sprachen: Man schätzt, dass alle zwei Wochen eine Sprache verschwindet. Soweit diese Sprachen umfassend und verlässlich in authentischen Aufnahmen dokumentiert sind, leben sie als Teil des menschlichen kulturellen Erbes zumindest in dieser Form weiter: nicht genug, aber besser als nichts. Ebenso wichtig wie Audio- und Videoaufzeichnung ist das Aufkommen digitaler Methoden, die es erlauben, das Material nicht nur zu archivieren, sondern nach den verschiedensten Gesichtspunkten zu analysieren. Wir verfügen nunmehr über Möglichkeiten, von denen die Sprachwissenschaftler vor einigen Jahren nur träumen konnten. So entstehen denn auch seit einigen Jahren an verschiedenen Orten digitale Sprachenarchive.

Eines der größten, wenn nicht überhaupt das größte und technisch fortgeschrittenste wird seit etwa 15 Jahren am MPI für Psycholinguistik aufgebaut. Da es auch die gesamten Daten des von der Volkswagen-Stiftung geförderten Projektes “Dokumentation bedrohter Sprachen” (DOBES) umfasst, hat es inzwischen eine Größe erreicht, die seine Fortführung im Rahmen eines einzelnen Instituts unmöglich macht. Deshalb ist es seit Oktober 2011 unter dem durchaus ambitionierten Namen The Language Archive (TLA) in die Obhut der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), der Königlich-Niederländischen Akademie der Wissenschaften (KNAW) und der MPG genommen worden. Organisatorisch ist es an das MPI für Psycholinguistik angebunden, das auch die erforderliche Infrastruktur bereitstellt. Geleitet wird es von Wolfgang Klein und einem Steering Board aus Vertretern der beteiligten Einrichtungen (http://www.mpi.nl/research/research-projects/thelanguage-archive).

The Language Archive: Zugriff auf 200 Sprachen

Die Bestände des TLA umfassen derzeit Daten zu etwa 200 Sprachen, insgesamt etwa 20 000 Stunden an Video- und Audiomaterial sowie eine schwer quantifizierbare Menge an Textdaten; sie sind weitgehend mit Metadaten versehen und damit gut durchsuchbar. Die Daten entstammen im Wesentlichen drei Quellen. Dies sind zum ersten die über Jahre hinweg aufgebauten Bestände der Abteilungen von Wolfgang Klein (“Spracherwerb”) und Stephen Levinson (“Sprache und Kognition”) am MPI für Psycholinguistik. Die zweite Gruppe bilden die Materialien des bereits genannten DOBES-Projekts der Volkswagen-Stiftung – weltweit der größten Förderinitiative in diesem Bereich. Das Projekt wurde 2000 begonnen und wird voraussichtlich 2016 enden; bislang haben 60 Einzelforscher bzw. kleine Teams etwa 80 vom Aussterben bedrohte oder inzwischen gar schon ausgestorbene Sprachen dokumentiert. Die dritte Gruppe ist heterogen, es sind dies Materialien, die dem TLA meist als – oft noch nicht einmal digitalisierte – Rohdaten von verschiedenen Forschern oder Institutionen aus aller Welt zum Sichern und Aufbereiten übergeben wurden. Ein Teil davon stammt von anderen Max-Planck-Instituten, so etwa die digitalen Daten der Forschungsstelle für Humanethologie. Diese Bestände werden systematisch ausgebaut.

Daten für die Forschung nutzbar machen

All diese Daten sollen nicht einfach aufbewahrt, sondern für die sprachwissenschaftliche Forschung genutzt werden. Dazu müssen Werkzeuge bereitgestellt werden, die es erlauben, die Materialien zu archivieren, mit Annotationen zu versehen, nach verschiedenen Gesichtspunkten zu durchsuchen und – nach Möglichkeit automatisch – zu analysieren. Dazu hat das TLA ein unter dem Namen LAT (language archiving technology) zusammengefasstes Bündel an Software-Tools entwickelt, die frei nutzbar sind und von Forschern weltweit bereits viel genutzt werden. Dafür seien hier zwei Beispiele genannt. Die Sprachdaten liegen in der Regel zunächst als Audiostrom bzw. Videostrom vor, der zunächst in einzelne Sessions unterteilt und mit entsprechenden Metadaten versehen werden, da man sonst gar nichts darin finden könnte. Auf diese Weise sind die 20000 Stunden in insgesamt 73000 Sessions aufgeteilt, die aber in sich auch zunächst nur Audio- und Videoströme sind. Diese müssen nun linguistisch  annotiert, das heißt transkribiert und mit allen möglichen Angaben zur Morphologie, zur Syntax, zur Intonation, zum Wortschatz, zur Gestik und Mimik und dergleichen mehr versehen werden. Erst dann kann man wirklich eine Beschreibung der Sprache oder des Kommunikationsverhaltens in Angriff nehmen. Diese linguistische Annotation ist extrem aufwändig, aber unabdinglich, und je reicher sie ist, umso mehr kann man damit tun. Sie kann in der Regel nicht mehr von den Mitarbeitern des TLA selbst geleistet werden, sondern man braucht dazu Experten für die betreffende Sprache; zumeist sind dies jene, die die Daten aufgenommen haben. Das TLA hat dazu ein sehr flexibles, leicht handhabbares und effizientes Werkzeug namens ELAN entwickelt, das allmählich zum Standard für solche linguistischen Annotationen wird (Abb. 1).

Linguistik mit ELAN

ELAN stützt sich auf die Expertise der Linguisten, die sich die Daten anschauen und ihre Entscheidungen treffen. Das ist das einzige wirklich verlässliche Vorgehen; es ist aber überaus zeitraubend. Es wäre daher eine eminente Erleichterung, wenn man die linguistisch relevanten Muster in den Audio- und Videodaten automatisch oder zumindest teilautomatisch erkennen würde. Das TLA entwickelt dafür gemeinsam mit zwei Fraunhofer-Instituten (IAIS,  St. Augustin, HHI, Berlin) ein als AVATecH (Advanced Video and Audio Technology in Humanities Research) bezeichnetes Programmpaket, das dies in gewissen Grenzen leistet. Eine perfekte Lösung ist derzeit außer Reichweite und wird auch nicht angestrebt, aber die Arbeit des analysierenden Linguisten lässt sich damit massiv beschleunigen.

Das TLA soll der gesamten Öffentlichkeit zugänglich sein. Sowohl die Daten wie die Werkzeuge sind open access; das oben erwähnte Annotationspaket ELAN ist bislang etwa 29000-mal heruntergeladen worden. Für die Daten selbst gibt es allerdings juristische und ethische Beschränkungen, die sich zum einen aus den Rechten derer ergeben, die die Daten aufgenommen haben, zum anderen aus den Persönlichkeitsrechten derer, die aufgenommen wurden. Dies kann im Einzelfall sehr unterschiedlich aussehen; so übertragen manche der Urheber ihre Rechte auf das Archiv, andere behalten sich die Entscheidung über die Nutzung vor. Das TLA hat dazu ein gestuftes Zugangssystem entwickelt, das von “völlig frei” bis zu “derzeit nur den Urhebern/den aufgenommenen Personen zugänglich” reicht. Angestrebt wird, dem Gedanken des open access entsprechend, immer die größtmögliche Offenheit.

Forschen im Verbund

The Language Archive ist in ein Netzwerk von Kooperationen eingebunden. Daran sind zunächst einmal andere Einrichtungen oder Projekte der drei Partner beteiligt, an der BBAW etwa das Zentrum Sprache und hier insbesondere das “Digitale Wörterbuch” und das “Deutsche Textarchiv”, an der KNAW das Meertens Instituut. Bereits genannt worden ist das DOBES-Projekt der Volkswagen-Stiftung sowie das AVATeCH-Projekt mit der Fraunhofer-Gesellschaft. Von ganz besonderer Bedeutung sind jedoch auch übergreifende Initiativen, insbesondere die von der EU getragenen Netzwerke CLARIN (Common Language Resources and Technology Infrastructure”) und DASISH (Data Service Infrastructure for the Social Sciences and Humanities). Nicht zuletzt lebt das TLA jedoch von der Kooperation mit vielen einzelnen Sprachforschern aus aller Welt, die oft auf sich gestellt ihren Beitrag zu einer besseren Erforschung der menschlichen Sprachvielfalt und damit zu einem besseren Verständnis dessen leisten, was die menschliche Sprache ausmacht.

Weitere interessante Beiträge

Zur Redakteursansicht