Forschungsbericht 2018 - Max-Planck-Institut für empirische Ästhetik

Rhythmus in Sprache und Musik

Autoren
Poeppel, David; Rimmele, Johanna; Roeske, Tina
Abteilungen
Department of Neuroscience
Zusammenfassung
Ein großer Bereich menschlichen Verhaltens ist rhythmisch. Dies gilt für Tätigkeiten wie singen, musizieren oder tanzen, aber auch – weniger offensichtlich – für Sprache. Wir erforschen zum einen die neuronalen Grundlagen von Rhythmizität. Am Beispiel der Sprache untersuchen wir, inwieweit die Sprachwahrnehmung auf rhythmischen Aktivitätsmustern im Gehirn beruht. Andererseits untersuchen wir am Tiermodell (Singvogel), ob die Arten von Rhythmizität, die wir in Sprache und Musik finden, spezifisch für menschliche Kognition sind - oder eine allgemeinere Rolle in kommunikativen Kontexten spielen.

Rhythmizität und Vorhersagbarkeit in Sprache und Musik 

Wie kann man erklären, dass so viele unserer Verhaltensweisen (quasi-)rhythmisch sind? Eine These ist, dass Rhythmizität unsere Wahrnehmung optimiert, indem sie es erleichtert, den Fortgang von Sequenzen vorherzusagen. Insbesondere im Fall von Sprache ist Vorhersagbarkeit nützlich, um effizient Information zu extrahieren1.

original

Abb.1: Rhythmische Wortverarbeitung. (A) Neuronale Power (Mittelwert über Sensoren) bei 2 Hertz (Hz, Wort-Rate) und 4 Hz (Silben-Rate) für Deutsche Wörter, allerdings nur bei 4 Hz für „Nicht-Wörter“; (B) Deutsche Wörter zeigen im Vergleich zu „Nicht-Wörtern“ eine stärkere Aktivierung (warme Farben) in superioren temporalen und frontalen Hirnarealen.

Interessanterweise spielt Rhythmizität in ästhetischen Kontexten eine wichtige Rolle. Dichtung und Gesang basieren auf Sprache, die durch Versmaß und Reim noch rhythmischer wird, und rhythmische Bewegungen werden für Instrumentalmusik und Tanz genutzt. Auch hier könnte es um Vorhersagbarkeit gehen: Entstehen bei den Zuhörern eines Liedes Erwartungen, wie sich die Melodie weiter entwickelt, können Künstler dies nutzen, um die Zuhörer stärker in ihren Bann zu ziehen2: Sie können Vorhersagen bestätigen, verzögern oder enttäuschen und so beim Zuhörer Gefühle von Bestätigung, Spannung und Überraschung erzeugen. Unvorhersagbare Tonsequenzen empfinden wir tatsächlich als weniger ansprechend als Musik, über deren Rhythmus und Melodiebewegungen wir Erwartungen bilden können2.

Ist die Rhythmizität in Sprache und Musik spezifisch für menschliche (auditorische) Kognition, und beruht sie auf spezialisierten neuronalen Mechanismen in unserem Gehirn? Sie könnte alternativ auch ein viel allgemeineres Prinzip in kommunikativen Kontexten darstellen, wo Vorhersagbarkeit von Nutzen ist. Um uns dieser Frage zu nähern, erforschen wir die Rolle von Rhythmizität auch an einem Tiermodell, dem Singvogel. Vogelgesang weist verschiedene Parallelen zu rhythmischer Lautproduktion beim Menschen auf, und eventuell nutzen auch Vögel die hohe Vorhersagbarkeit von Rhythmizität zu “ästhetischen” Zwecken3.

Rhythmizität und neuronale Mechanismen

original
Abb. 2: Alternierende (kurz-lang) Rhythmen fallen über individuelle Sänger hinweg in klar abgrenzbare Rhythmus-Klassen. A: Akustisches Signal eines Abschnitts im Sprosser-Gesang, in dem dieselbe Note in einem Kurz-Lang-Muster zyklisch wiederholt wird. Ein Zyklus entspricht dem Zeitintervall des Beginns von Note 1 bis zum Beginn der nächsten Note 1. B: Kreisförmiges Histogramm, das anzeigt, wie häufig bei alternierenden Notenwiederholungen die zweite Note in allen Zyklus-Positionen erscheint. Es sind drei separate Klassen auszumachen: 1:1-Rhythmen (grau), schwach alternierende 1:2-Rhythmen und stark alternierende 1:5-Rhythmen (türkise Pfeilspitzen). C: Beispiel-Sonogramme von entsprechenden Abschnitten im Gesang. Vogel 7 benutzt denselben Notentyp in zwei verschiedenen Rhythmen (1:1, oben, und 1:2, unten). Vogel 18 benutzt denselben Rhythmus mit zwei verschiedenen Notentypen (gestrichelte Linien zeigen den Zeitpunkt des Notenbeginns an).

Die Wahrnehmung von dynamischen Signalen wie Sprache oder Musik erfordert eine Analyse der zeitlichen Information, die die Basis solcher Signale darstellt. Wie wird die aufgenommene Information zeitlich „ausgelesen“? Ein kontinuierliches Sprachsignal beinhaltet keine eindeutigen Hinweise darauf, wann eine Silbe oder ein Wort beginnt. Quasi-rhythmische Fluktuationen im Sprachsignal entsprechen allerdings in etwa der Silbenrate1. Neuronale Oszillationen oder Hirn-Rhythmen, ein grundlegendes physiologisches Verarbeitungsprinzip, scheinen eine Rolle bei der Verarbeitung rhythmischer Zeitstruktur zu spielen1. Langsame Theta-Oszillationen (4-8 Hz)  im auditiven Cortex folgen den Fluktuationen im Sprachsignal, so dass Phasen hoher Energie im Sprachsignal mit einer hohen neuronalen Antwortbereitschaft einhergehen. Dies scheint eine Segmentierung des Sprachsignals zu ermöglichen1. Wie im Gehirn die akustische Information linguistischen Informationen zugeordnet wird, verstehen wir allerdings noch kaum.

Eine relevante Frage ist, ob es limitierte zeitliche Analysefenster für die unterschiedlichen Prozesse der Sprachverarbeitung gibt, ob diese der Wellenlänge der ihrer Verarbeitung dienenden Hirn-Rhythmen entsprechen, und wie diese interagieren. Zum Beispiel kommunizieren während des Sprachverstehens frontale und motorische Hirnregionen anhand von Theta- und Delta-Oszillationen mit Hirnarealen, die primär an der akustischen Verarbeitung beteiligt sind4. Diese Interaktion könnte ein Zeichen von semantischen und syntaktischen Vorhersagen sein.

Erforschung der zeitlichen Dynamik von linguistischer Verarbeitung

Wir untersuchen, ob neuronale Oszillationen an der Wortverarbeitung beteiligt sind, und ob diese Prozesse die akustische Verarbeitung auf der (hierarchisch darunter liegenden) Silbenebene beeinflussen (Abb. 1). Unter Verwendung neurophysiologischer MEG-Aufnahmen (gepaart mit Verhaltensmessungen) überprüfen wir die Rolle von Delta-(0.5-3 Hz) und Theta-(4-8 Hz) Oszillationen bei der Sprach Segmentierung und Decodierung.

Wir verwenden ein “frequency-tagging”-Paradigma5, bei dem Silben kontinuierlich alle 250 Millisekunden (ms) präsentiert (Theta-Frequenzbereich, 4 Hz) werden. Probanden hören entweder zweisilbige deutsche Wörter oder entsprechende “Nicht-Wörter”. Akustische Hinweise für die Gruppierung von Silben zu Wörtern werden entfernt. Anhand unserer Daten zeigen wir, dass rhythmische Hirnaktivität am Zugriff auf Wörter beteiligt ist (Delta-Oszillationen, 2 Hz), und dass Wortverarbeitungsprozesse die Segmentierung auf der Silbenebene (Theta-Oszillationen, 4 Hz) beeinflussen.

Rhythmizität im Vogelgesang

Um die Aufmerksamkeit von Artgenossen anzuziehen, könnten Singvögel ähnliche Mechanismen nutzen wie Musiker: Sie könnten mit vorhersagbaren Rhythmen bei ihren Zuhörern Erwartungen erzeugen, mit denen sie dann “spielen”, indem der tatsächliche Fortgang des Rhythmus diesen entspricht oder nicht.

Zunächst muss allerdings geklärt werden, ob Vögel ihren Gesang überhaupt als rhythmisch wahrnehmen – bzw. ob die Sänger ihr Noten-“Timing” unter Kontrolle haben. Alternativ könnte sich das Noten-Timing daraus ergeben, dass die Vögel spezifische Bewegungen des Vokalapparats aneinanderreihen müssen, um eine Notensequenz zu singen. Kontrollieren sie nur die Notenfolge, wäre das Timing bloß Resultat von Dynamiken im peripheren Muskelapparat.

Um dies zu klären, haben wir die Gesänge von Sprossern untersucht. Rhythmen, die aktiv kontrolliert und für Zuhörer vorhersagbar sind, sollten in abgrenzbare Rhythmus-Klassen fallen, unabhängig von etwa der Tonhöhe. Können die Sänger dagegen nur bestimmte vokale Gesten aneinanderreihen, aber nicht deren Timing bestimmen, erwarten wir keine systematischen Rhythmus-Klassen.

Unsere vorläufigen Resultate suggerieren das Gegenteil. Wir beobachten, dass Sprosser innerhalb ihrer einfachsten Notensequenzen (alternierenden Kurz-Lang-Wiederholungen derselben Note) drei sehr klare Rhythmus-Klassen erzeugen und dazwischenliegende Rhythmen vermeiden. In diesen Klassen stehen das kurze und das lange Intervall in einem kleinen ganzzahligen Verhältnis zueinander (Abb. 2), nämlich 1:1 (Klasse 1, “isochrone” Rhythmen), 1:2 (Klasse 2, schwach alternierende)  oder 1:5 (Klasse 3, stark alternierende Rhythmen). Die Klassen sind unabhängig von Gesamttempo und Tonhöhen. Insgesamt scheinen diese Befunde darauf hinzuweisen, dass die Zeitstruktur des Gesangs nicht nur durch bloße periphere motorische Limitationen bestimmt ist. Ähnlich wie in menschlicher Musik scheinen Sprosser ihre Rhythmen aktiv zu gestalten, indem sie verschiedene, voneinander abgrenzbare Muster produzieren.

Literaturhinweise

1.
Giraud, A.-L.; Poeppel, D.
Cortical oscillations and speech processing: emerging computational principles and operations
Nature Neuroscience 15, 511-517 (2012)
DOI
2.
Huron, D.
Sweet anticipation: Music and the psychology of expectation
The MIT Press (2006)
3.
Rothenberg, D.; Roeske, T. C.; Voss, H. U.; Naguib, M.; Tchernichovski, O.
Investigation of musicality in birdsong
Hearing Research 308, 71-83 (2014)
DOI
4.
Park, H.; Ince, R. A. A.; Schyns, P. G.; Thut, G.; Gross, J.
Frontal top-down signals increase coupling of auditory low-frequency oscillations to continuous speech in human listeners
Current Biology CB 25, 1649-1653 (2015)
DOI
5.
Ding, N.; Melloni, L.; Zhang, H.; Tian, X.; Poeppel, D.
Cortical tracking of hierarchical linguistic structures in connected speech
Nature Neuroscience 19, 158-164 (2016)
DOI
Zur Redakteursansicht