Nachrichten, Gerüchte, Meldungen und Berichte aus der IT-Szene

Redaktion: Heinz Schmitz


Wer spricht: Mensch oder Maschine?

Wie nehmen Menschen den Unterschied zwischen echten und computergenerierten Stimmen wahr? (Illustration: MPIEA/L. Bittner)

Wie nehmen Menschen den Unterschied zwischen echten und computergenerierten Stimmen wahr? (Illustration: MPIEA/L. Bittner)

 

Computergenerierte Stimmen begegnen uns überall – in Navigationssystemen, Sprachassistenten und automatisierten Ansagen. Doch wie menschlich klingen diese Stimmen tatsächlich? Eine aktuelle Studie des Max-Planck-Instituts für empirische Ästhetik (MPIEA) in Frankfurt am Main zeigt, dass nicht nur entscheidend ist, wie etwas gesagt wird, sondern auch, was gesagt wird und ob die Zuhörer die Sprache verstehen.

 

Die Forscher untersuchten in zwei Experimenten, wie Menschen den Unterschied zwischen echten und synthetischen Stimmen wahrnehmen. Dazu formulierten sie 16 kurze Sätze auf Deutsch, wie zum Beispiel: „Der Junge schenkte seinem Vater einen Hut.“ Anschließend manipulierten sie die Sätze, indem sie einmal die Wortreihenfolge änderten, ein anderes Mal die Worte durch ähnlich klingende Pseudowörter ersetzten und ein drittes Mal beides miteinander kombinierten. So entstanden insgesamt vier Varianten jedes Satzes. Alle Satzvarianten wurden von acht menschlichen Sprechern aufgenommen sowie von acht computergenerierten Text-to-Speech-Stimmen

(TTS) eingesprochen.

 

Im ersten Experiment bewerteten 40 deutschsprachige Studienteilnehmer, wie menschlich die Stimmen ihrer Meinung nach klangen. Die Forscher stellten fest, dass die computergenerierten Stimmen insgesamt als weniger menschlich empfunden wurden als die menschlichen Stimmen. Eine Analyse der akustischen Stimmmerkmale ergab, dass es tatsächlich auch objektiv messbare klangliche Unterschiede zwischen menschlichen und TTS-generierten Stimmen gibt. „Wir haben festgestellt, dass sich sowohl die Klangfarbe als auch die Intonation der beiden Stimmtypen voneinander unterscheiden. Diese Unterschiede könnten maßgeblich dafür sein, wie menschlich die Stimmen auf die Zuhörer wirken“, berichtet Erstautorin Janniek Wester vom MPIEA.

 

Auch der Inhalt des Gesagten hat Einfluss darauf, wie menschlich eine Stimme klingt. So fanden die Forscher heraus, dass die manipulierten Sätze für die Teilnehmer weniger menschlich klangen als die Originalsätze – unabhängig davon, ob ein echter Mensch oder eine TTS- generierte Stimme sie eingesprochen hatte. Dieser Effekt kam jedoch nur zum Tragen, wenn die Zuhörer die Sprache auch verstanden, was im zweiten Experiment deutlich wurde.

 

Diesmal bewerteten je 40 deutsch-, spanisch- und türkischsprachige Teilnehmer die Stimmen. Es zeigte sich, dass der sprachliche Inhalt für Personen ohne Deutschkenntnisse bei der Einschätzung der Menschlichkeit keine Rolle spielte. Auch wenn sie synthetische Stimmen im Vergleich zu Muttersprachler als menschlicher bewerteten, konnten sie die beiden Stimmtypen dennoch grundsätzlich voneinander unterscheiden.

 

Darüber hinaus spielt auch das Alter der Zuhörer bei der Bewertung eine Rolle, wie Seniorautorin Pauline Larrouy-Maestri vom MPIEA abschließend erläutert: „In unseren Studien stellen wir immer wieder fest, dass ältere Menschen computergenerierte Stimmen tendenziell als menschlicher empfinden als jüngere Menschen – und wir möchten verstehen, warum das so ist.“ In einer Folgestudie mit Teilnehmer verschiedener Altersgruppen möchte das Forschungsteam diesen Effekt genauer untersuchen.

 

Originalpublikation:

Wester, J., & Larrouy-Maestri, P. (2026). Perception of Humanness is Affected by Speech Content. Speech Communication, 181, 103398.

https://doi.org/10.1016/j.specom.2026.103398

 

Siehe auch:

https://www.ae.mpg.de/

 

Zurück