Forschungsbericht 2017 - Max-Planck-Institut für empirische Ästhetik

Rhythmus in Sprache und Musik

Autoren

Poeppel, David; Rimmele, Johanna; Roeske, Tina

Abteilungen

Department of Neuroscience

Zusammenfassung

Ein großer Bereich menschlichen Verhaltens ist rhythmisch. Dies gilt für Tätigkeiten wie singen, musizieren oder tanzen, aber auch – weniger offensichtlich – für Sprache. Wir erforschen zum einen die neuronalen Grundlagen von Rhythmizität. Am Beispiel der Sprache untersuchen wir, inwieweit die Sprachwahrnehmung auf rhythmischen Aktivitätsmustern im Gehirn beruht. Andererseits untersuchen wir am Tiermodell (Singvogel), ob die Arten von Rhythmizität, die wir in Sprache und Musik finden, spezifisch für menschliche Kognition sind - oder eine allgemeinere Rolle in kommunikativen Kontexten spielen.

Rhythmizität und Vorhersagbarkeit in Sprache und Musik

Wie kann man erklären, dass so viele unserer Verhaltensweisen (quasi-)rhythmisch sind? Eine These ist, dass Rhythmizität unsere Wahrnehmung optimiert, indem sie es erleichtert, den Fortgang von Sequenzen vorherzusagen. Insbesondere im Fall von Sprache ist Vorhersagbarkeit nützlich, um effizient Information zu extrahieren¹.

Abb.1: Rhythmische Wortverarbeitung. (A) Neuronale Power (Mittelwert über Sensoren) bei 2 Hertz (Hz, Wort-Rate) und 4 Hz (Silben-Rate) für Deutsche Wörter, allerdings nur bei 4 Hz für „Nicht-Wörter“; (B) Deutsche Wörter zeigen im Vergleich zu „Nicht-Wörtern“ eine stärkere Aktivierung (warme Farben) in superioren temporalen und frontalen Hirnarealen. — **Abb.1:** Rhythmische Wortverarbeitung. (A) Neuronale Power (Mittelwert über Sensoren) bei 2 Hertz (Hz, Wort-Rate) und 4 Hz (Silben-Rate) für Deutsche Wörter, allerdings nur bei 4 Hz für „Nicht-Wörter“; (B) Deutsche Wörter zeigen im Vergleich zu „Nicht-Wörtern“ eine stärkere Aktivierung (warme Farben) in superioren temporalen und frontalen Hirnarealen.

© MPI für Empirische Ästhetik

**Abb.1:** Rhythmische Wortverarbeitung. (A) Neuronale Power (Mittelwert über Sensoren) bei 2 Hertz (Hz, Wort-Rate) und 4 Hz (Silben-Rate) für Deutsche Wörter, allerdings nur bei 4 Hz für „Nicht-Wörter“; (B) Deutsche Wörter zeigen im Vergleich zu „Nicht-Wörtern“ eine stärkere Aktivierung (warme Farben) in superioren temporalen und frontalen Hirnarealen.

© MPI für Empirische Ästhetik

Interessanterweise spielt Rhythmizität in ästhetischen Kontexten eine wichtige Rolle. Dichtung und Gesang basieren auf Sprache, die durch Versmaß und Reim noch rhythmischer wird, und rhythmische Bewegungen werden für Instrumentalmusik und Tanz genutzt. Auch hier könnte es um Vorhersagbarkeit gehen: Entstehen bei den Zuhörern eines Liedes Erwartungen, wie sich die Melodie weiter entwickelt, können Künstler dies nutzen, um die Zuhörer stärker in ihren Bann zu ziehen²: Sie können Vorhersagen bestätigen, verzögern oder enttäuschen und so beim Zuhörer Gefühle von Bestätigung, Spannung und Überraschung erzeugen. Unvorhersagbare Tonsequenzen empfinden wir tatsächlich als weniger ansprechend als Musik, über deren Rhythmus und Melodiebewegungen wir Erwartungen bilden können².

Ist die Rhythmizität in Sprache und Musik spezifisch für menschliche (auditorische) Kognition, und beruht sie auf spezialisierten neuronalen Mechanismen in unserem Gehirn? Sie könnte alternativ auch ein viel allgemeineres Prinzip in kommunikativen Kontexten darstellen, wo Vorhersagbarkeit von Nutzen ist. Um uns dieser Frage zu nähern, erforschen wir die Rolle von Rhythmizität auch an einem Tiermodell, dem Singvogel. Vogelgesang weist verschiedene Parallelen zu rhythmischer Lautproduktion beim Menschen auf, und eventuell nutzen auch Vögel die hohe Vorhersagbarkeit von Rhythmizität zu “ästhetischen” Zwecken³.

Rhythmizität und neuronale Mechanismen

Abb. 2: Alternierende (kurz-lang) Rhythmen fallen über individuelle Sänger hinweg in klar abgrenzbare Rhythmus-Klassen. A: Akustisches Signal eines Abschnitts im Sprosser-Gesang, in dem dieselbe Note in einem Kurz-Lang-Muster zyklisch wiederholt wird. Ein Zyklus entspricht dem Zeitintervall des Beginns von Note 1 bis zum Beginn der nächsten Note 1. B: Kreisförmiges Histogramm, das anzeigt, wie häufig bei alternierenden Notenwiederholungen die zweite Note in allen Zyklus-Positionen erscheint. Es sind drei separate Klassen auszumachen: 1:1-Rhythmen (grau), schwach alternierende 1:2-Rhythmen und stark alternierende 1:5-Rhythmen (türkise Pfeilspitzen). C: Beispiel-Sonogramme von entsprechenden Abschnitten im Gesang. Vogel 7 benutzt denselben Notentyp in zwei verschiedenen Rhythmen (1:1, oben, und 1:2, unten). Vogel 18 benutzt denselben Rhythmus mit zwei verschiedenen Notentypen (gestrichelte Linien zeigen den Zeitpunkt des Notenbeginns an). — **Abb. 2:** Alternierende (kurz-lang) Rhythmen fallen über individuelle Sänger hinweg in klar abgrenzbare Rhythmus-Klassen. A: Akustisches Signal eines Abschnitts im Sprosser-Gesang, in dem dieselbe Note in einem Kurz-Lang-Muster zyklisch wiederholt wird. Ein Zyklus entspricht dem Zeitintervall des Beginns von Note 1 bis zum Beginn der nächsten Note 1. B: Kreisförmiges Histogramm, das anzeigt, wie häufig bei alternierenden Notenwiederholungen die zweite Note in allen Zyklus-Positionen erscheint. Es sind drei separate Klassen auszumachen: 1:1-Rhythmen (grau), schwach alternierende 1:2-Rhythmen und stark alternierende 1:5-Rhythmen (türkise Pfeilspitzen). C: Beispiel-Sonogramme von entsprechenden Abschnitten im Gesang. Vogel 7 benutzt denselben Notentyp in zwei verschiedenen Rhythmen (1:1, oben, und 1:2, unten). Vogel 18 benutzt denselben Rhythmus mit zwei verschiedenen Notentypen (gestrichelte Linien zeigen den Zeitpunkt des Notenbeginns an).

© MPI für Empirische Ästhetik

**Abb. 2:** Alternierende (kurz-lang) Rhythmen fallen über individuelle Sänger hinweg in klar abgrenzbare Rhythmus-Klassen. A: Akustisches Signal eines Abschnitts im Sprosser-Gesang, in dem dieselbe Note in einem Kurz-Lang-Muster zyklisch wiederholt wird. Ein Zyklus entspricht dem Zeitintervall des Beginns von Note 1 bis zum Beginn der nächsten Note 1. B: Kreisförmiges Histogramm, das anzeigt, wie häufig bei alternierenden Notenwiederholungen die zweite Note in allen Zyklus-Positionen erscheint. Es sind drei separate Klassen auszumachen: 1:1-Rhythmen (grau), schwach alternierende 1:2-Rhythmen und stark alternierende 1:5-Rhythmen (türkise Pfeilspitzen). C: Beispiel-Sonogramme von entsprechenden Abschnitten im Gesang. Vogel 7 benutzt denselben Notentyp in zwei verschiedenen Rhythmen (1:1, oben, und 1:2, unten). Vogel 18 benutzt denselben Rhythmus mit zwei verschiedenen Notentypen (gestrichelte Linien zeigen den Zeitpunkt des Notenbeginns an).

© MPI für Empirische Ästhetik

Die Wahrnehmung von dynamischen Signalen wie Sprache oder Musik erfordert eine Analyse der zeitlichen Information, die die Basis solcher Signale darstellt. Wie wird die aufgenommene Information zeitlich „ausgelesen“? Ein kontinuierliches Sprachsignal beinhaltet keine eindeutigen Hinweise darauf, wann eine Silbe oder ein Wort beginnt. Quasi-rhythmische Fluktuationen im Sprachsignal entsprechen allerdings in etwa der Silbenrate¹. Neuronale Oszillationen oder Hirn-Rhythmen, ein grundlegendes physiologisches Verarbeitungsprinzip, scheinen eine Rolle bei der Verarbeitung rhythmischer Zeitstruktur zu spielen¹. Langsame Theta-Oszillationen (4-8 Hz) im auditiven Cortex folgen den Fluktuationen im Sprachsignal, so dass Phasen hoher Energie im Sprachsignal mit einer hohen neuronalen Antwortbereitschaft einhergehen. Dies scheint eine Segmentierung des Sprachsignals zu ermöglichen¹. Wie im Gehirn die akustische Information linguistischen Informationen zugeordnet wird, verstehen wir allerdings noch kaum.

Eine relevante Frage ist, ob es limitierte zeitliche Analysefenster für die unterschiedlichen Prozesse der Sprachverarbeitung gibt, ob diese der Wellenlänge der ihrer Verarbeitung dienenden Hirn-Rhythmen entsprechen, und wie diese interagieren. Zum Beispiel kommunizieren während des Sprachverstehens frontale und motorische Hirnregionen anhand von Theta- und Delta-Oszillationen mit Hirnarealen, die primär an der akustischen Verarbeitung beteiligt sind⁴. Diese Interaktion könnte ein Zeichen von semantischen und syntaktischen Vorhersagen sein.

Erforschung der zeitlichen Dynamik von linguistischer Verarbeitung

Wir untersuchen, ob neuronale Oszillationen an der Wortverarbeitung beteiligt sind, und ob diese Prozesse die akustische Verarbeitung auf der (hierarchisch darunter liegenden) Silbenebene beeinflussen (Abb. 1). Unter Verwendung neurophysiologischer MEG-Aufnahmen (gepaart mit Verhaltensmessungen) überprüfen wir die Rolle von Delta-(0.5-3 Hz) und Theta-(4-8 Hz) Oszillationen bei der Sprach Segmentierung und Decodierung.

Wir verwenden ein “frequency-tagging”-Paradigma⁵, bei dem Silben kontinuierlich alle 250 Millisekunden (ms) präsentiert (Theta-Frequenzbereich, 4 Hz) werden. Probanden hören entweder zweisilbige deutsche Wörter oder entsprechende “Nicht-Wörter”. Akustische Hinweise für die Gruppierung von Silben zu Wörtern werden entfernt. Anhand unserer Daten zeigen wir, dass rhythmische Hirnaktivität am Zugriff auf Wörter beteiligt ist (Delta-Oszillationen, 2 Hz), und dass Wortverarbeitungsprozesse die Segmentierung auf der Silbenebene (Theta-Oszillationen, 4 Hz) beeinflussen.

Rhythmizität im Vogelgesang

Um die Aufmerksamkeit von Artgenossen anzuziehen, könnten Singvögel ähnliche Mechanismen nutzen wie Musiker: Sie könnten mit vorhersagbaren Rhythmen bei ihren Zuhörern Erwartungen erzeugen, mit denen sie dann “spielen”, indem der tatsächliche Fortgang des Rhythmus diesen entspricht oder nicht.

Zunächst muss allerdings geklärt werden, ob Vögel ihren Gesang überhaupt als rhythmisch wahrnehmen – bzw. ob die Sänger ihr Noten-“Timing” unter Kontrolle haben. Alternativ könnte sich das Noten-Timing daraus ergeben, dass die Vögel spezifische Bewegungen des Vokalapparats aneinanderreihen müssen, um eine Notensequenz zu singen. Kontrollieren sie nur die Notenfolge, wäre das Timing bloß Resultat von Dynamiken im peripheren Muskelapparat.

Um dies zu klären, haben wir die Gesänge von Sprossern untersucht. Rhythmen, die aktiv kontrolliert und für Zuhörer vorhersagbar sind, sollten in abgrenzbare Rhythmus-Klassen fallen, unabhängig von etwa der Tonhöhe. Können die Sänger dagegen nur bestimmte vokale Gesten aneinanderreihen, aber nicht deren Timing bestimmen, erwarten wir keine systematischen Rhythmus-Klassen.

Unsere vorläufigen Resultate suggerieren das Gegenteil. Wir beobachten, dass Sprosser innerhalb ihrer einfachsten Notensequenzen (alternierenden Kurz-Lang-Wiederholungen derselben Note) drei sehr klare Rhythmus-Klassen erzeugen und dazwischenliegende Rhythmen vermeiden. In diesen Klassen stehen das kurze und das lange Intervall in einem kleinen ganzzahligen Verhältnis zueinander (Abb. 2), nämlich 1:1 (Klasse 1, “isochrone” Rhythmen), 1:2 (Klasse 2, schwach alternierende) oder 1:5 (Klasse 3, stark alternierende Rhythmen). Die Klassen sind unabhängig von Gesamttempo und Tonhöhen. Insgesamt scheinen diese Befunde darauf hinzuweisen, dass die Zeitstruktur des Gesangs nicht nur durch bloße periphere motorische Limitationen bestimmt ist. Ähnlich wie in menschlicher Musik scheinen Sprosser ihre Rhythmen aktiv zu gestalten, indem sie verschiedene, voneinander abgrenzbare Muster produzieren.

Literaturhinweise

Giraud, A.-L.; Poeppel, D.

Cortical oscillations and speech processing: emerging computational principles and operations

Nature Neuroscience 15, 511-517 (2012)

DOI

Huron, D.

Sweet anticipation: Music and the psychology of expectation

The MIT Press (2006)

Rothenberg, D.; Roeske, T. C.; Voss, H. U.; Naguib, M.; Tchernichovski, O.

Investigation of musicality in birdsong

Hearing Research 308, 71-83 (2014)

DOI

Park, H.; Ince, R. A. A.; Schyns, P. G.; Thut, G.; Gross, J.

Frontal top-down signals increase coupling of auditory low-frequency oscillations to continuous speech in human listeners

Current Biology CB 25, 1649-1653 (2015)

DOI

Ding, N.; Melloni, L.; Zhang, H.; Tian, X.; Poeppel, D.

Cortical tracking of hierarchical linguistic structures in connected speech

Nature Neuroscience 19, 158-164 (2016)

DOI