Przełom w generatywnej AI: Nowa metoda skraca czas uczenia modeli dyfuzyjnych
Generatywne modele dyfuzyjne zrewolucjonizowały dziedzinę sztucznej inteligencji, stając się podstawą w tworzeniu obrazów i dźwięków. Ich działanie opiera się na stopniowym dodawaniu szumu do danych treningowych, a następnie uczeniu modelu, jak odwrócić ten proces – odszumić dane, by odzyskać realistyczne próbki.
Jednak popularne modele dyfuzyjne mają swoje ograniczenia. Kiedy dane znacznie różnią się od początkowego rozkładu prawdopodobieństwa, proces odszumiania ulega spowolnieniu, co wydłuża czas generowania próbek. Zespół naukowców z Institute of Science Tokyo znalazł rozwiązanie tego problemu.
Schrödinger Bridge pod lupą
Badacze, pod kierownictwem Kentaro Kaby i profesora Masayukiego Ohzeki, zaproponowali nową architekturę dla modeli dyfuzyjnych, która łączy koncepcję modeli Schrödinger Bridge (SB) z wariacyjnymi autoenkoderami (VAE). Modele SB, w odróżnieniu od standardowych, potrafią łączyć dowolne dwa rozkłady prawdopodobieństwa w skończonym czasie, oferując większą elastyczność w procesie generowania danych. Ich wadą jest jednak wysoka złożoność obliczeniowa.
Nowe podejście omija tę przeszkodę poprzez reinterpretację modeli SB jako VAE z nieskończenie wieloma zmiennymi ukrytymi. Jak tłumaczą naukowcy, kluczem jest rozszerzenie liczby zmiennych ukrytych, co pozwala na zmianę perspektywy i spojrzenie na modele SB przez pryzmat VAE. W tej konfiguracji enkoder mapuje rzeczywiste dane na zaszumioną przestrzeń ukrytą, a dekoder odwraca ten proces, rekonstruując realistyczne próbki. Oba procesy modelowane są jako stochastyczne równania różniczkowe (SDE), których parametry są uczone przez sieci neuronowe.
Przerwać w porę
Model wykorzystuje funkcję celu składającą się z dwóch elementów. Pierwszy z nich, prior loss, dba o to, by enkoder poprawnie mapował rozkład danych na rozkład początkowy. Drugi element, drift matching, uczy dekoder naśladowania dynamiki odwrotnego procesu enkodera. Co istotne, po ustabilizowaniu się prior loss, trening enkodera może zostać przerwany. Pozwala to na szybsze zakończenie uczenia, redukując ryzyko przeładowania i zachowując wysoką dokładność modeli SB.
„Funkcja celu składa się z części prior loss i drift matching, które charakteryzują odpowiednio trening sieci neuronowych w enkoderze i dekoderze. Razem redukują one koszt obliczeniowy treningu modeli typu SB. Wykazano, że przerwanie treningu enkodera zmniejsza problem przeładowania” – wyjaśnia Ohzeki.
Przyszłość generatywnej AI
Nowa metoda jest elastyczna i może być stosowana do innych zbiorów reguł probabilistycznych, nawet procesów nie-Markowa, co czyni ją szeroko użytecznym schematem treningowym. Odkrycie to otwiera nowe możliwości w projektowaniu wydajniejszych i dokładniejszych generatywnych modeli AI, które znajdą zastosowanie w wielu dziedzinach, od tworzenia realistycznych obrazów i dźwięków po generowanie sekwencji wideo i projektowanie nowych leków. Ta innowacja ma potencjał, by przyspieszyć rozwój sztucznej inteligencji i uczynić ją bardziej dostępną.
