Mensch oder Maschine?

Wie Inhalt, Klang und Sprachkenntnis unsere Wahrnehmung von Stimmen prägen

21. Mai 2026

Stilisierte Illustration einer Kommunikation zwischen Mensch und KI: Links ein türkisfarbener menschlicher Kopf mit Schallwellen, rechts ein orangefarbener Roboterkopf. Die Schallwellen wandeln sich in binäre Zahlen um. — Wie nehmen Menschen den Unterschied zwischen echten und computergenerierten Stimmen wahr?

© Illustration: MPIEA / L. Bittner

Wie nehmen Menschen den Unterschied zwischen echten und computergenerierten Stimmen wahr?

© Illustration: MPIEA / L. Bittner

Auf den Punkt gebracht

Mensch oder Maschine? Computergenerierte Stimmen wirken nach wie vor weniger menschlich als echte menschliche Stimmen.
Faktoren: Sprachbedeutung, Sprachstruktur sowie prosodische und akustische Merkmale haben Einfluss darauf, wie menschlich eine Stimme klingt.
Alter spielt auch eine Rolle: Auch Sprachkenntnis und Alter der Zuhörenden beeinflussen die Wahrnehmung.

Computergenerierte Stimmen begegnen uns überall – in Navigationssystemen, Sprachassistenten und automatisierten Ansagen. Doch wie menschlich klingen diese Stimmen tatsächlich? Eine aktuelle Studie des Max-Planck-Instituts für empirische Ästhetik (MPIEA) in Frankfurt am Main zeigt, dass nicht nur entscheidend ist, wie etwas gesagt wird, sondern auch, was gesagt wird und ob die Zuhörenden die Sprache verstehen. Die Ergebnisse sind kürzlich im Fachmagazin Speech Communication erschienen.

Objektiv messbare Unterschiede

Die Forscherinnen untersuchten in zwei Experimenten, wie Menschen den Unterschied zwischen echten und synthetischen Stimmen wahrnehmen. Dazu formulierten sie 16 kurze Sätze auf Deutsch, wie zum Beispiel: „Der Junge schenkte seinem Vater einen Hut.“ Anschließend manipulierten sie die Sätze, indem sie einmal die Wortreihenfolge änderten, ein anderes Mal die Worte durch ähnlich klingende Pseudowörter ersetzten und ein drittes Mal beides miteinander kombinierten. So entstanden insgesamt vier Varianten jedes Satzes. Alle Satzvarianten wurden von acht menschlichen Sprechern aufgenommen sowie von acht computergenerierten Text-to-Speech-Stimmen (TTS) eingesprochen.

Im ersten Experiment bewerteten 40 deutschsprachige Studienteilnehmende, wie menschlich die Stimmen ihrer Meinung nach klangen. Die Forscherinnen stellten fest, dass die computergenerierten Stimmen insgesamt als weniger menschlich empfunden wurden als die menschlichen Stimmen. Eine Analyse der akustischen Stimmmerkmale ergab, dass es tatsächlich auch objektiv messbare klangliche Unterschiede zwischen menschlichen und TTS-generierten Stimmen gibt.

„Wir haben festgestellt, dass sich sowohl die Klangfarbe als auch die Intonation der beiden Stimmtypen voneinander unterscheiden. Diese Unterschiede könnten maßgeblich dafür sein, wie menschlich die Stimmen auf die Zuhörer:innen wirken“, berichtet Erstautorin Janniek Wester vom MPIEA.

Was gesagt wird, hat Einfluss

Auch der Inhalt des Gesagten hat Einfluss darauf, wie menschlich eine Stimme klingt. So fanden die Forscherinnen heraus, dass die manipulierten Sätze für die Teilnehmende weniger menschlich klangen als die Originalsätze – unabhängig davon, ob ein echter Mensch oder eine TTS-generierte Stimme sie eingesprochen hatte. Dieser Effekt kam jedoch nur zum Tragen, wenn die Zuhörer und Zuhörerinnen die Sprache auch verstanden, was im zweiten Experiment deutlich wurde.

Diesmal bewerteten je 40 deutsch-, spanisch- und türkischsprachige Teilnehmende die Stimmen. Es zeigte sich, dass der sprachliche Inhalt für Personen ohne Deutschkenntnisse bei der Einschätzung der Menschlichkeit keine Rolle spielte. Auch wenn sie synthetische Stimmen im Vergleich zu Muttersprachlern als menschlicher bewerteten, konnten sie die beiden Stimmtypen dennoch grundsätzlich voneinander unterscheiden.

Darüber hinaus spielt auch das Alter der Zuhörenden bei der Bewertung eine Rolle, wie Seniorautorin Pauline Larrouy-Maestri vom MPIEA abschließend erläutert: „In unseren Studien stellen wir immer wieder fest, dass ältere Menschen computergenerierte Stimmen tendenziell als menschlicher empfinden als jüngere Menschen – und wir möchten verstehen, warum das so ist.“ In einer Folgestudie mit Teilnehmenden verschiedener Altersgruppen möchte das Forschungsteam diesen Effekt genauer untersuchen.

Mensch oder Maschine?

Auf den Punkt gebracht

Objektiv messbare Unterschiede

Was gesagt wird, hat Einfluss

Weitere interessante Beiträge