Video

Tencent Hunyuan Video-Foley: Sztuczna inteligencja, która ożywia nieme filmy

Czy zdarzyło Ci się oglądać wygenerowany przez AI film i odczuwać, że czegoś w nim brakuje? Realistyczne wizualizacje często kontrastują z niepokojącą ciszą, która psuje odbiór. W przemyśle filmowym dźwięki wypełniające tę ciszę – szelest liści, grzmot burzy, brzęk szkła – tworzone są przez specjalistów od efektów dźwiękowych, tzw. artystów Foley. Osiągnięcie podobnego poziomu szczegółowości to ogromne wyzwanie dla sztucznej inteligencji.

Przez lata automatyczne systemy miały problem z generowaniem wiarygodnych dźwięków do filmów. Jednym z głównych powodów słabych wyników modeli V2A (video-to-audio) był brak równowagi między modalnościami. Innymi słowy, AI bardziej polegała na tekstowych podpowiedziach niż na samej analizie obrazu. Przykładowo, model, który otrzymał film z ruchliwej plaży z spacerującymi ludźmi i latającymi mewami, ale z podpowiedzią tekstową ograniczoną do „szumu fal oceanu”, generowałby tylko ten dźwięk. AI ignorowałaby odgłosy kroków na piasku i krzyki ptaków, przez co scena wydawałaby się martwa.

Zespół Hunyuan firmy Tencent postanowił rozwiązać ten problem, tworząc Hunyuan Video-Foley. Jak tego dokonano?

Lepsze dane treningowe

Tencent stworzył ogromną bibliotekę danych, zawierającą 100 000 godzin filmów, nagrań audio i opisów tekstowych. Zastosowano automatyczny system filtrowania treści niskiej jakości, eliminując klipy z długimi okresami ciszy lub skompresowanym dźwiękiem, zapewniając, że AI uczy się na najlepszych materiałach.

Inteligentniejsza architektura AI

System najpierw skupia się na powiązaniu wizualno-dźwiękowym, aby precyzyjnie zsynchronizować dźwięk z obrazem. Na przykład, dopasowuje odgłos uderzenia buta o chodnik do konkretnego momentu, w którym stopa dotyka podłoża. Następnie uwzględniana jest podpowiedź tekstowa, aby zrozumieć ogólny nastrój i kontekst sceny. Takie podejście gwarantuje, że żaden szczegół wizualny nie zostanie pominięty.

Wysoka jakość dźwięku

Aby zagwarantować wysoką jakość dźwięku, zastosowano strategię treningową zwaną Representation Alignment (REPA). Polega ona na ciągłym porównywaniu pracy AI z cechami profesjonalnego modelu audio, co pozwala na generowanie czystszego, bogatszego i bardziej stabilnego dźwięku.

Hunyuan Video-Foley – wyniki

Tencent udostępnił HunyuanVideo-Foley na zasadach open source. Wyniki mówią same za siebie. Testy wykazały, że Hunyuan Video-Foley generuje dźwięk o wyższej jakości, lepiej dopasowany do obrazu i dokładniej zsynchronizowany w porównaniu z innymi wiodącymi modelami AI, co potwierdzili zarówno słuchacze, jak i wskaźniki komputerowe.

Praca firmy Tencent przybliża nas do momentu, w którym generowane przez AI filmy przestaną być nieme i staną się wciągającym doświadczeniem wizualnym z wysokiej jakości dźwiękiem. To potężne narzędzie dla filmowców, animatorów i twórców treści.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *