Synthesia blisko pokonania doliny niesamowitości w awatarach AI
Współczesna technologia sztucznej inteligencji, w szczególności w obszarze generowania wideo, stale dąży do perfekcji w naśladowaniu ludzkich cech. Jednym z kluczowych wyzwań, przed którymi stoją deweloperzy, jest tak zwana „dolina niesamowitości” – zjawisko, w którym niemal ludzkie, lecz wciąż nieidealne, cyfrowe reprezentacje wywołują poczucie dyskomfortu lub odrazy u obserwatorów.
Victor Riparbelli, współzałożyciel i CEO platformy Synthesia, w trakcie konferencji Fortune Brainstorm AI London, podkreślił rosnącą rolę moderacji treści. Riparbelli, którego firma pozyskała ponad 330 milionów dolarów finansowania od inwestorów takich jak Kleiner Perkins czy Accel, zauważył, że nawet on sam krytycznie ocenia swojego awatara, zwracając uwagę na drobne niedoskonałości, takie jak częstotliwość mrugnięć czy ułożenie włosów. To spostrzeżenie podkreśla, jak głęboko zakorzeniona jest ludzka percepcja autentyczności, nawet wobec cyfrowych odbić.
Mikrowyrażenia: klucz do ludzkiego realizmu
Riparbelli wskazuje na mikrowyrażenia jako esencję tworzenia ludzki wyglądających awatarów. „Wszystko tkwi w mikrowyrażeniach” – stwierdził. Chodzi o subtelne niuanse, takie jak intonacja głosu, zmienny rytm mowy (przyspieszanie, zwalnianie), akcentowanie konkretnych słów, a nawet gestykulacja. Przykładem jest nieświadome używanie rąk podczas rozmowy, które, jeśli zostanie pominięte przez awatara, może wywołać wrażenie „niesamowitości”.
Według Riparbelliego, problemem wielu wczesnych generacji awatarów było ich brzmienie. O ile pojedyncze zdania mogły wydawać się realistyczne, dłuższe wypowiedzi szybko ujawniały brak naturalnej modulacji, typowej dla ludzkiej mowy. To właśnie te małe, często niezauważalne detale, składają się na ogólne wrażenie autentyczności.
Przełamanie doliny niesamowitości
Termin „dolina niesamowitości” został wprowadzony w 1970 roku przez robotyka Masahiro Moriego. Opisuje on zjawisko, w którym obiekty wyglądające niemal jak ludzie, ale nie do końca, budzą niepokój. Riparbelli jest optymistą, uważając, że w kontekście wideo, Synthesia jest na progu trwałego przełamaniu tej bariery. „Uważam, że przełamiemy dolinę niesamowitości jeszcze przed końcem roku” – powiedział. Porównuje to do postępów, jakie nastąpiły w generowaniu realistycznych obrazów i tekstu, gdzie sztuczna inteligencja zdołała już osiągnąć bardzo wysoki poziom autentyczności.
Synthesia, obsługująca globalne firmy, takie jak Mondelēz International i SAP, przez ostatni rok odnotowała ponad 150 000 użytkowników, którzy tworzyli awatary do celów marketingowych i szkoleniowych w różnych językach. Mimo pewnych „drobnych zastrzeżeń”, jak to określa Riparbelli, awatary są coraz bardziej przekonujące. Wyzwanie polega na tym, by cyfrowe odbicie było na tyle naturalne, by zniwelować nawet podświadome odczucie, że nie mamy do czynienia z prawdziwą osobą. Eliminacja „marginesów dziwności”, jak określa to CEO Synthesii, jest kluczowa dla pełnej akceptacji awatarów AI w codziennym użytkowaniu.
