Rozproszone fale dźwiękowe w pastelach, nieskładna twarz. AI nie potrafi wyrazić ludzkich emocji w mowie.

Sztuczna inteligencja wciąż ma problemy z naśladowaniem ekspresji ludzkiej mowy

2025-09-09 AI Sight

Sztuczna inteligencja radzi sobie coraz lepiej z syntezą mowy, ale wierne naśladowanie ludzkiej ekspresji wciąż pozostaje wyzwaniem. Badacze z Uniwersytetu Pensylwanii przyjrzeli się temu problemowi, analizując, jak różne modele AI radzą sobie z odwzorowaniem intonacji i prozodii – elementów kluczowych dla zrozumienia znaczenia wypowiedzi.

Lingwistka Jianjing Kuang wraz ze studentami, w ramach programu Penn Undergraduate Research Mentoring Program, przeprowadziła serię eksperymentów. Porównali oni, jak ludzie i algorytmy AI akcentują różne części zdania w zależności od kontekstu. Weźmy na przykład zdanie: „Molly wysłała melona”. W zależności od pytania – „Kto wysłał melona?”, „Co Molly zrobiła z melonem?” czy „Co Molly wysłała?” – naturalne jest położenie nacisku na inne słowo. Okazało się, że dla modeli AI, poprawne zidentyfikowanie i zaakcentowanie właściwego słowa stanowi poważny problem.

Studenci wykorzystali 15 różnych platform text-to-speech (TTS) od gigantów technologicznych, takich jak OpenAI, Google i Meta, po mniejsze firmy. Generowali oni zdanie „Molly wysłała melona” w różnych kontekstach i porównywali wyniki z nagraniami ludzkich głosów. Analiza akustyczna, obejmująca takie parametry jak wysokość dźwięku, jego intensywność i długość trwania poszczególnych słów, wykazała istotne różnice.

„Odkryliśmy ogromną zmienność między modelami” – mówi Kuang. Niektóre z nich, mimo wyraźnych instrukcji, nie potrafiły poprawnie zaakcentować wskazanego słowa. Inne, jak na przykład OpenAI i Google Gemini, radziły sobie z tym zadaniem lepiej. Co ciekawe, algorytmom łatwiej było zaakcentować imię „Molly” niż słowa występujące później w zdaniu. Niektóre aplikacje akcentowały kilka słów naraz, inne zamieniały zdanie w pytanie, a jeszcze inne w ogóle nie kończyły wypowiedzi.

W kolejnym etapie badania, słuchacze oceniali naturalność nagrań i próbowali odgadnąć, czy dany fragment został wygenerowany przez człowieka, czy przez AI. Okazało się, że identyfikacja źródła dźwięku była bardzo skuteczna, co sugeruje, że mowa generowana przez sztuczną inteligencję wciąż brzmi nienaturalnie.

Jianjing Kuang podkreśla, że tego typu badania są ważne dla rozwoju naturalnej i ekspresywnej mowy AI. Wiedza lingwistyczna jest niezbędna, by oceniać jakość modeli i przybliżać nas do syntezy mowy, która byłaby nieodróżnialna od ludzkiej. Praca z AI może również pomóc w lepszym zrozumieniu ludzkiej mowy i opracowywaniu skuteczniejszych terapii dla osób z zaburzeniami wymowy.

Udostępnij:

Zobacz również

Huxe: Twórcy NotebookLM stawiają na audio w nowej aplikacji do newsów i researchu

Claude Neptune V3: Nowe możliwości matematyczne i pytania o tożsamość modelu

Google udostępnia Gemini Embedding-001: rewolucja w wielojęzycznych embeddingach tekstu

Dodaj komentarz Anuluj pisanie odpowiedzi