Mensch oder Maschine?
Wie Inhalt, Klang und Sprachkenntnis unsere Wahrnehmung von Stimmen prägen
Auf den Punkt gebracht
- Mensch oder Maschine? Computergenerierte Stimmen wirken nach wie vor weniger menschlich als echte menschliche Stimmen.
- Faktoren: Sprachbedeutung, Sprachstruktur sowie prosodische und akustische Merkmale haben Einfluss darauf, wie menschlich eine Stimme klingt.
- Alter spielt auch eine Rolle: Auch Sprachkenntnis und Alter der Zuhörenden beeinflussen die Wahrnehmung.
Computergenerierte Stimmen begegnen uns überall – in Navigationssystemen, Sprachassistenten und automatisierten Ansagen. Doch wie menschlich klingen diese Stimmen tatsächlich? Eine aktuelle Studie des Max-Planck-Instituts für empirische Ästhetik (MPIEA) in Frankfurt am Main zeigt, dass nicht nur entscheidend ist, wie etwas gesagt wird, sondern auch, was gesagt wird und ob die Zuhörenden die Sprache verstehen. Die Ergebnisse sind kürzlich im Fachmagazin Speech Communication erschienen.
Objektiv messbare Unterschiede
Die Forscherinnen untersuchten in zwei Experimenten, wie Menschen den Unterschied zwischen echten und synthetischen Stimmen wahrnehmen. Dazu formulierten sie 16 kurze Sätze auf Deutsch, wie zum Beispiel: „Der Junge schenkte seinem Vater einen Hut.“ Anschließend manipulierten sie die Sätze, indem sie einmal die Wortreihenfolge änderten, ein anderes Mal die Worte durch ähnlich klingende Pseudowörter ersetzten und ein drittes Mal beides miteinander kombinierten. So entstanden insgesamt vier Varianten jedes Satzes. Alle Satzvarianten wurden von acht menschlichen Sprechern aufgenommen sowie von acht computergenerierten Text-to-Speech-Stimmen (TTS) eingesprochen.
Im ersten Experiment bewerteten 40 deutschsprachige Studienteilnehmende, wie menschlich die Stimmen ihrer Meinung nach klangen. Die Forscherinnen stellten fest, dass die computergenerierten Stimmen insgesamt als weniger menschlich empfunden wurden als die menschlichen Stimmen. Eine Analyse der akustischen Stimmmerkmale ergab, dass es tatsächlich auch objektiv messbare klangliche Unterschiede zwischen menschlichen und TTS-generierten Stimmen gibt.
„Wir haben festgestellt, dass sich sowohl die Klangfarbe als auch die Intonation der beiden Stimmtypen voneinander unterscheiden. Diese Unterschiede könnten maßgeblich dafür sein, wie menschlich die Stimmen auf die Zuhörer:innen wirken“, berichtet Erstautorin Janniek Wester vom MPIEA.
Was gesagt wird, hat Einfluss
Auch der Inhalt des Gesagten hat Einfluss darauf, wie menschlich eine Stimme klingt. So fanden die Forscherinnen heraus, dass die manipulierten Sätze für die Teilnehmende weniger menschlich klangen als die Originalsätze – unabhängig davon, ob ein echter Mensch oder eine TTS-generierte Stimme sie eingesprochen hatte. Dieser Effekt kam jedoch nur zum Tragen, wenn die Zuhörer und Zuhörerinnen die Sprache auch verstanden, was im zweiten Experiment deutlich wurde.
Diesmal bewerteten je 40 deutsch-, spanisch- und türkischsprachige Teilnehmende die Stimmen. Es zeigte sich, dass der sprachliche Inhalt für Personen ohne Deutschkenntnisse bei der Einschätzung der Menschlichkeit keine Rolle spielte. Auch wenn sie synthetische Stimmen im Vergleich zu Muttersprachlern als menschlicher bewerteten, konnten sie die beiden Stimmtypen dennoch grundsätzlich voneinander unterscheiden.
Darüber hinaus spielt auch das Alter der Zuhörenden bei der Bewertung eine Rolle, wie Seniorautorin Pauline Larrouy-Maestri vom MPIEA abschließend erläutert: „In unseren Studien stellen wir immer wieder fest, dass ältere Menschen computergenerierte Stimmen tendenziell als menschlicher empfinden als jüngere Menschen – und wir möchten verstehen, warum das so ist.“ In einer Folgestudie mit Teilnehmenden verschiedener Altersgruppen möchte das Forschungsteam diesen Effekt genauer untersuchen.











