Forschungsbericht 2017 - Max-Planck-Institut für Psycholinguistik

Der Sprecherwechsel bei der zwischenmenschlichen Kommunikation und seine Folgen für die Sprachverarbeitung

Autoren
Levinson, Stephen C.
Abteilungen
Max-Planck-Institut für Psycholinguistik, Nijmegen, Netherlands
Zusammenfassung
Das Sprechen als interaktiver Vorgang ist in aller Regel mit einem schnellen Sprecherwechsel (turn-taking) der Gesprächspartner verbunden. Dieses turn-taking-System hat besondere Eigenschaften: Die Reaktionen der Gesprächsteilnehmer auf die Redebeiträge der Gesprächspartner sind äußerst schnell, obwohl diese unterschiedlich lang und oft sehr komplex sein können, sodass für die kognitive Sprachverarbeitung nur sehr wenig Zeit bleibt. Wie sich nun zeigt, hat dieses bisher in der Kognitionsforschung vernachlässigte System tiefgreifende Folgen für die Sprachverarbeitung und den Spracherwerb.

Sprecherwechsel (turn-taking) – ein Teil der universellen Infrastruktur von Sprache

Sprachen unterscheiden sich auf allen Ebenen, sei es auf der lautlichen, der syntaktischen oder auf der Bedeutungsebene. Aber es gibt eine auffällige Gemeinsamkeit in der Art und Weise, wie Sprechende ihre Sprache gebrauchen – nämlich in Form schneller Wechsel von meist kurzen Redebeiträgen, im Folgenden turns genannt [1]. Obwohl es auf den ersten Blick unspektakulär zu sein scheint: Das System des Sprecherwechsels (turn-taking) ermöglicht einen tiefen Einblick in die Sprachverarbeitung und hilft bei der Beantwortung der Frage, warum Sprache so charakteristisch aus kurzen Phrasen- oder Satz-ähnlichen Einheiten mit bestimmten Lautmelodien besteht. Im Gegensatz zur Diversität unterschiedlicher Sprachen besitzt dieses System einen universellen Charakter: ein frühes ontologisches Auftreten sowie ein Fortbestehen in anderen Kommunikationssystemen von Primaten. Beide Merkmale legen den Schluss nahe, dass wir es hier mit einem phylogenetisch interessanten Phänomen zu tun haben, bei dem ein vokalisches turn-taking der Sprachentwicklung vorausgeht und einen Rahmen für sie schafft. Obwohl dieses System in der Soziologie im Bereich der Konversationsanalyse intensiv untersucht wurde (und wird), spielte es in den Kognitionswissenschaften noch bis vor kurzem kaum eine Rolle.

Der menschliche Sprachgebrauch ist vorwiegend interaktiv und in Gespräche eingebunden; in diesem Kontext werden Sprachen auch erworben. Das turn-taking-System hat die folgenden grundlegenden Eigenschaften [2]: Redebeiträge (turns) haben keine vorgegebene Größe; sie sind meist kurz, im Durchschnitt etwa zwei Sekunden lang, aber es gibt auch – wenn nötig – längere turns, zum Beispiel beim Erzählen einer Geschichte. Das turn-taking-System fordert von den Sprechern das Vermeiden von Überlappungen; es ist äußerst flexibel im Hinblick auf die Anzahl der Sprecher. Und es ist hocheffizient: Weniger als 5% des Redeflusses beinhaltet simultanes Sprechen von zwei oder mehr Sprechern [die modalen Überlappungen dauern weniger als 100 Millisekunden (ms)], die modale Lücke zwischen zwei turns dauert nur 200 ms, und das System arbeitet genauso effizient, wenn die Sprecher keinen Blickkontakt miteinander haben [2].

Man geht davon aus, dass das System auf der Basis eines „Rechts auf minimale turns“ funktioniert, wobei dem ersten Angesprochenen dieses Recht erteilt wird und dieser nach dem Ende seines Redebeitrags wieder darauf verzichtet. Turns bestehen aus syntaktischen (sprachlichen) Einheiten, die sich prosodisch (also hinsichlich ihrer lautlichen Merkmale) unterscheiden. Dadurch können die Gesprächsteilnehmer das bevorstehende Ende eines Redebeitrags vorhersagen. Eine das turn-Ende signalisierende Komponente wurde in der Vergangenheit diskutiert, aber sie kommt zu spät für das Initiieren der Planung einer Antwort; allerdings kann sie dazu führen, einen schon vorbereiteten turn auszulösen [2, 3]. Unseres Wissens nach ist das System, das den Ablauf von Alltagsgesprächen bestimmt, in hohem Maß universell, mit nur minimal zeitlichen Varianten [1], und es unterscheidet sich deutlich von den eher kulturspezifischen Systemen des Sprecherwechsels, wie sie zum Beispiel im Klassenzimmer, im Gerichtssaal oder in Pressekonferenzen benutzt werden.

Die kognitive Herausforderung des turn-taking

original
Abb. 1: Das turn-taking-System ist durch einen schnellen Sprecherwechsel gekennzeichnet. Die modale Reaktionszeit, also die Lücke zwischen zwei Redebeiträgen, beträgt nur ca. 200ms.

Folgende Befunde verdeutlichen die kognitiven Konsequenzen des turn-taking-Systems: Ein turn dauert durchschnittlich zwei Sekunden [2]. Im Sprachvergleich zeigt sich, dass die modale Reaktionszeit (d.h. die Lücke zwischen den Redebeiträgen) etwa 200 ms beträgt [1, 2]; das entspricht der durchschnittlichen Länge einer Silbe. Das ist auch der Grenzbereich für unsere Reaktion auf ein einfaches Startsignal, wie es z. B. von einer Startpistole abgegeben wird. Reaktionszeiten werden mit wachsender Anzahl von möglichen Reaktionstypen zunehmend langsamer (Hicksches Gesetz). Man bedenke: Sprachen haben Lexika von mehr als 50.000 Wörtern. Darüber hinaus ist die Sprachproduktion notorisch langsam – die Vorbereitung der Äußerung eines schon experimentell angebahnten Wortes beträgt 600 ms [4], die eines nicht angebahnten Wortes etwa 1000 ms, und die eines kurzen Satzes etwa 1500 ms. Ein Großteil dieser Verzögerung hängt von der langsamen Enkodierung phonologischer Formen und artikulatorischer Gesten ab. Das heißt, dass die Reaktion auf einen Redebeitrag bereits etwa in dessen Mitte geplant werden muss.

Die Langsamkeit des Sprachproduktionssystems erfordert, dass sich im interaktiven Sprachgebrauch das Sprachverstehen und die Sprachproduktion überschneiden. Man muss seinen eigenen Redebeitrag bereits planen, während man dem Gesprächspartner zuhört, und dabei vorhersagen, was der Rest seines turns noch beinhalten wird. Betrachten wir dazu die Abbildungen 1-3. Hier hört die Person B einen von der Person A produzierten Redebeitrag.

Neben dem einfachen Verstehen des gehörten Signals müssen nun folgende Voraussetzungen für eine sinnvolle und zeitlich adäquate – d.h. etwa 200 ms nach dem turn-Ende zu gebende – Antwort der Person B erfüllt sein: Person B muss so schnell wie möglich versuchen, die Funktion des Redebeitrags von Person A vorherzusagen (B muss erkennen, ob A`s Äußerung eine Frage, ein Angebot, eine Forderung etc. ist), um darauf adäquat zu reagieren (Abb. 1). Anschließend muss Person B sofort mit der Formulierung einer Antwort beginnen, wobei diese alle Stadien der Sprachproduktion – Konzeptualisierung, Wortfindung, syntaktische Konstruktion, phonologische Enkodierung und Artikulation – durchlaufen muss (Abb. 2).

original
Abb. 2: Alle Stadien der Sprachproduktion sind insgesamt dreimal länger als die Lücke zwischen den Redebeiträgen: Die Produktionszeit eines Wortes dauert 600 ms. 

 

Unterdessen muss Person B auch die syntaktischen und semantischen Besonderheiten von Person A's turn dazu benutzen, um abzuschätzen, wie lange dieser sein wird und dabei auch auf prosodische (über die Sprache hinausgehende) Hinweise auf ein turn-Ende achten (Abb. 3). Sobald Person B solche Hinweise erkennt, muss er/sie die Antwort initiieren.

Erste Ergebnisse

Kürzlich konnten erste Erkenntnisse zu jedem dieser Stadien gewonnen werden; dabei haben EEG-Analysen eine gute zeitliche Auflösung der dabei involvierten Prozesse geliefert. Das Erkennen von Sprechakten ist nicht-trivial, weil es keine Eins-zu-Eins-Zuordnung von Form und Funktion gibt: “Ich habe ein Auto” kann die Antwort auf eine Frage, die Einleitung eines Angebots zum Mitfahren oder die Ablehnung eines solchen Angebots sein – je nach dem jeweiligem Kontext („Fährst Du mit dem Zug?“, „Ich habe gerade den letzten Zug verpasst.“, „Musst du irgendwohin fahren?“). Mithilfe von EEG-Analysen konnte gezeigt werden, dass das Erkennen der Funktion eines Redebeitrags in diesen einschränkenden Kontexten dennoch sehr schnell – innerhalb der ersten 400 ms nach turn-Beginn – erfolgt [5]. Sobald das Sprachverstehen die Funktion erkennt, kann mit der Vorbereitung der Reaktion auf ihn begonnen werden.

original
Abb. 3: Weil die Produktionszeit eines Wortes viel länger ist als die modale Reaktionszeit, muss sich die Produktion der Reaktion mit dem Verstehen des gehörten Redebeitrags überschneiden.

Ebenfalls mithilfe von EEG-Analysen wurde gezeigt, dass Produktionsprozesse bereits innerhalb von 500 ms anlaufen, nachdem ausreichende Informationen vorhanden sind; das Signal kann in Bereichen der Sprachenkodierung aufgezeichnet werden [6]. Zur zeitlichen Abschätzung und Vorhersage von Dauer und Ende eines Redebeitrags können lexikalische, semantische und syntaktische Strukturen genutzt werden – in günstigen Fällen führt das etwa in der Hälfte der turns zum Erfolg. Das schließt auch die Vorhersage von dabei noch zu realisierenden Wörtern ein. [7].

Experimente mit manipulierten Äußerungen zeigen, dass die semantische Komponente für diese Vorhersagefähigkeit eine große Rolle spielt. Prosodische, über die eigentliche Sprache hinausgehende Hinweise (wie z.B. verlängerte Silben) treten oft gegen Ende eines Redebeitrags auf; es konnte gezeigt werden, dass diese von den Hörern genutzt werden [3]; sie geben wohl das Startsignal für die Produktion der Antwort. Das würde die 200 ms lange modale Lücke erklären, die in etwa unserer minimalen Reaktionszeit entspricht. Vorbereitungen für das Auslösen von Sprache durch solche Hinweise können im Atem-Signal mithilfe eines Plethysmographen erkannt werden [8]; sie werden auch von zuschauenden Anwesenden an den Augenbewegungen erkannt. Die Rolle der Tonhöhe ist dabei noch umstritten; wenn sie ausgefiltert wird, werden die Reaktionszeiten nicht kürzer, aber andere Messungen zeigten, dass sie genutzt wird.

Das Multitasking-Problem

Unser turn-taking-System involviert ein Multitasking von Abläufen innerhalb der Komponenten unseres Sprachverstehens und unserer Sprachproduktion. Ein Multitasking innerhalb ein und derselben Modalität ist ausgesprochen schwierig – in diesem Fall kann gezeigt werden, dass dabei große Teile des gleichen neuronalen Substrats genutzt werden. Offenbar kann das nur durch die schnelle Beteiligung verschiedener kognitiver Ressourcen erreicht werden. Diese Überschneidungen von Prozessen des Sprachverstehens und des Sprachgebrauchs führen in der gegenwärtigen psycholinguistischen Theoriebildung zu einer Reihe von Problemen. Es gibt z.B. die Hypothese, dass das Sprachverstehen das System der Sprachproduktion intrinsisch dazu nutzt, um Vorhersagen über den weiteren Verlauf einer Äußerung zu machen. Wenn aber das Sprachproduktionssystem schon damit beschäftigt ist, eine Reaktion auf einen Redebeitrag zu planen, dann wäre es wohl nicht in der Lage, dem Sprachverstehen zu helfen – abgesehen von ganz frühen Stadien eines zu verarbeitenden turns.

Gesprächsteilnehmer werden in ihrer Sprachgeschwindigkeit dadurch angetrieben, dass langsame Reaktionen signifikante Kommunikationszeichen sind –  typischerweise zeigen sie ein Widerstreben an, der erwarteten Antwort zu entsprechen [9]. Diese Schlussfolgerung kann am besten dadurch vermieden werden, dass man die normalen Zeitabläufe in der Sprecherfolge einhält. Das turn-taking-System im Rahmen einer Konversation ist kognitiv offenbar sehr anspruchsvoll: Indem es Vorhersagen und eine frühe Vorbereitung nutzt, reguliert es die Übernahme von Redebeiträgen in einem zeitlichen Bereich, der unserer minimalen Reaktionszeit auf einen Startschuss entspricht.

Literaturhinweise

1.
Stivers, T.; Enfield, N. J.; Brown, P.; Englert, C.; Hayashi, M.; Heinemann, T.; Hoymann, G.; Rossano, F.; de Ruiter, J. P.; Yoon, K.-E.; Levinson, S. C.
Universals and cultural variation in turn-taking in conversation
Proceedings of the National Academy of Sciences of the United States of America 106, 10587-10592 (2009)
DOI
2.
Levinson, S. C.; Torreira, F.
Timing in turn-taking and its implications for processing models of language
Frontiers in Psychology 7, 731 (2015)
DOI
3.
Bögels, S.; Torreira, F.
Listeners use intonational phrase boundaries to project turn ends in spoken interaction
Journal of Phonetics 52, 46-57 (2015)
DOI
4.
Indefrey, P.
The spatial and temporal signatures of word production components: a critical update
Frontiers in Psychology 2, 1-16 (2011).
DOI
5.
Gisladottir, R.; Chwilla, D.; Levinson, S.C.
Conversation electrified: ERP correlates of speech act recognition in underspecified utterances
PLoS ONE 10, e0120068 (2015)
DOI
6.
Bögels, S.; Magyari, L.; Levinson, S.C.
Neural signatures of response planning occur midway through an incoming question in conversation
Scientific Reports 5, 12881 (2015)
DOI
7.
Magyari, L.; Bastiaansen, M.; De Ruiter, J. P.; Levinson, S. C.
Early anticipation lies behind the speed of response in conversation
Journal of Cognitive Neuroscience 26, 2530-2539 (2014)
DOI
8.
Torreira, F.; Bögels, S.; Levinson, S. C.
Breathing for answering: the time course of response planning in conversation
Frontiers in Psychology 6, 284 (2015)
DOI
9.
Kendrick, K.; Torreira, F.
The timing and construction of preference: a quantitative study
Discourse Processes 52, 255-289 (2015)
DOI
Zur Redakteursansicht