Abstrakcyjna twarz rozpuszczająca się w kod cyfrowy z falami dźwiękowymi, w chłodnej, high-tech kolorystyce.

Klonowanie głosu przez AI: Granica między prawdą a fałszem coraz bardziej zatarta

2025-09-26 AI Sight

Czy potrafisz odróżnić głos człowieka od syntezatora? Okazuje się, że to zadanie staje się coraz trudniejsze. Najnowsze badania przeprowadzone na Queen Mary University of London ujawniają, że generowane przez sztuczną inteligencję głosy osiągnęły poziom realizmu, który zaciera granicę między tym, co autentyczne, a tym, co sztuczne.

Według pracy opublikowanej w PLOS One, technologia AI jest obecnie w stanie tworzyć „klony głosu” lub deepfake’i dźwiękowe, które brzmią równie naturalnie jak nagrania prawdziwych ludzi. Naukowcy porównali autentyczne ludzkie głosy z dwoma rodzajami głosów syntetycznych, stworzonych przy użyciu najnowocześniejszych narzędzi syntezy mowy AI. Niektóre z nich zostały „sklonowane” z nagrań prawdziwych osób, podczas gdy inne wygenerowano na podstawie dużego modelu głosowego bez konkretnego ludzkiego odpowiednika.

Uczestnicy badania mieli za zadanie ocenić, które głosy brzmią najbardziej realistycznie oraz które wydają się najbardziej dominujące lub godne zaufania. Wyniki zaskakują: klony głosowe mogą brzmieć równie realnie jak ludzkie głosy, co utrudnia słuchaczom ich rozróżnienie. Co więcej, oba rodzaje głosów generowanych przez AI zostały ocenione jako bardziej dominujące niż głosy ludzkie, a niektóre z nich były nawet postrzegane jako bardziej wiarygodne.

Dr Nadine Lavan, współautorka badania, podkreśla, że generowane przez AI głosy są już wszechobecne. Spotykamy się z nimi, rozmawiając z asystentami głosowymi, takimi jak Alexa czy Siri, lub kontaktując się z automatycznymi systemami obsługi klienta. „Nasze badanie pokazuje, że nadszedł czas, abyśmy pilnie zrozumieli, jak ludzie postrzegają te realistyczne głosy”, dodaje dr Lavan.

Co ciekawe, zespół badawczy był w stanie stworzyć klony głosowe (za zgodą ich właścicieli) przy użyciu dostępnego na rynku oprogramowania w niezwykle prosty i szybki sposób. „Proces ten wymagał minimalnej wiedzy specjalistycznej, zaledwie kilku minut nagrań głosowych i prawie żadnych kosztów”, wyjaśnia dr Lavan. „To tylko pokazuje, jak dostępna i zaawansowana stała się technologia AI w zakresie głosu.”

Gwałtowny postęp w tej dziedzinie niesie ze sobą liczne implikacje etyczne, prawne i związane z bezpieczeństwem, szczególnie w obszarach takich jak dezinformacja, oszustwa i podszywanie się pod inne osoby. Z drugiej strony otwiera również ekscytujące możliwości w zakresie poprawy dostępności, edukacji i komunikacji.

W dobie, gdy technologia zaciera granice między prawdą a fałszem, kluczowe staje się krytyczne podejście do odbieranych informacji i rozwijanie umiejętności odróżniania autentycznego głosu od jego sztucznej imitacji.

Udostępnij:

Zobacz również

Hume AI prezentuje Octave 2: Nowa generacja syntezy mowy AI

Precyzja kontra szybkość: Nowy ranking demaskuje mocne i słabe strony modeli rozpoznawania mowy

Sztuczna inteligencja gra na emocjach, by zatrzymać cię na dłużej. Nowe badania ujawniają techniki manipulacji w chatbotach.

Dodaj komentarz Anuluj pisanie odpowiedzi