LLMR & D

Nowy optymalizator z Oksfordu redukuje koszty trenowania AI o 80% i przyspiesza proces 7.5-krotnie

Koszty trenowania modeli sztucznej inteligencji, szczególnie tych opartych o uczenie głębokie (deep learning), potrafią być astronomiczne. Zużycie mocy obliczeniowej układów GPU generuje wysokie koszty, co wpływa na budżety firm, ogranicza eksperymenty i spowalnia rozwój. Trening nowoczesnych modeli językowych lub transformatorów wizyjnych na zbiorze danych ImageNet-1K to często tysiące godzin pracy GPU, co staje się barierą nie do pokonania dla startupów, laboratoriów badawczych, a nawet dużych korporacji technologicznych.

Najnowsze badania naukowców z Uniwersytetu Oksfordzkiego przynoszą przełomowe rozwiązanie. Opracowany przez nich optymalizator, nazwany Fisher-Orthogonal Projection (FOP), obiecuje redukcję kosztów trenowania modeli AI nawet o 80%. Innowacyjność FOP polega na zmianie sposobu, w jaki model uczy się, a konkretnie na inteligentnym wykorzystaniu informacji zawartych w gradientach.

Niedoskonałości w obecnych metodach trenowania modeli

Obecnie dominującą techniką w uczeniu głębokim jest metoda gradientu prostego (gradient descent). Optymalizator modyfikuje parametry modelu w kierunku, który powinien minimalizować błąd (loss). Podczas uczenia na dużą skalę wykorzystuje się mini-batch’e – podzbiory danych treningowych – a uśrednione gradienty z tych podzbiorów służą do aktualizacji parametrów. Problem polega na tym, że gradienty z poszczególnych elementów batch’a zawsze się różnią.

Standardowe podejście traktuje te różnice jako losowy szum i wygładza je dla zapewnienia stabilności. Jednak, jak dowodzą autorzy FOP, ten „szum” jest w rzeczywistości cennym sygnałem kierunkowym, który informuje o prawdziwym kształcie krajobrazu funkcji kosztu (loss landscape).

FOP: Nawigator uwzględniający ukształtowanie terenu

FOP traktuje wariancję między gradientami w obrębie batch’a nie jako szum, lecz jako mapę terenu. Wykorzystuje średni gradient (główny kierunek) i rzutuje różnice, tworząc komponent wrażliwy na geometrię i krzywiznę. Ten komponent kieruje optymalizator z dala od stromych ścian i wzdłuż dna doliny – nawet jeśli główny kierunek wskazuje prosto.

W praktyce wygląda to tak: średni gradient wskazuje kierunek, a gradient różnicowy działa jak sensor terenu, informujący o tym, czy teren jest płaski (można się szybko przemieszczać) czy stromy (należy zwolnić i pozostać w dolinie). FOP łączy oba sygnały, dodając krok „wrażliwy na krzywiznę”, ortogonalny do głównego kierunku, co zapobiega konfliktom i przekroczeniom. W rezultacie otrzymujemy szybszą i bardziej stabilną konwergencję, nawet przy ekstremalnych rozmiarach batch’y.

Wyniki w praktyce: 7.5x szybsze trenowanie na ImageNet-1K

Wyniki zastosowania FOP są imponujące. Na zbiorze danych ImageNet-1K (model ResNet-50) osiągnięcie standardowej dokładności walidacyjnej (75.9%) zajmuje metodą SGD 71 epok i 2511 minut. FOP osiąga tę samą dokładność w zaledwie 40 epokach i 335 minut – co daje 7.5-krotne przyspieszenie. W przypadku CIFAR-10 FOP jest 1.7x szybszy niż AdamW i 1.3x szybszy niż KFAC. Przy największym rozmiarze batch’a (50,000) tylko FOP osiąga 91% dokładności, podczas gdy inne metody zawodzą.

W przypadku ImageNet-100 (Vision Transformer) FOP jest nawet 10x szybszy niż AdamW i 2x szybszy niż KFAC przy największych rozmiarach batch’a. Ponadto, na zbiorach danych z długim ogonem (nierównomiernych) FOP redukuje błąd Top-1 o 2.3–3.3% w porównaniu do silnych linii bazowych.

Dlaczego to ma znaczenie dla biznesu, praktyki i badań

  • Biznes: Redukcja kosztów trenowania o 87% radykalnie zmienia ekonomię rozwoju AI. Zaoszczędzone środki można zainwestować w większe i ambitniejsze modele lub budować przewagę konkurencyjną dzięki szybszym i tańszym eksperymentom.
  • Praktycy: FOP jest łatwy w użyciu. Otwarty kod z publikacji można wdrożyć do istniejących workflow PyTorch za pomocą jednej zmiany w linii kodu i bez dodatkowego strojenia.
  • Badacze: FOP redefiniuje pojęcie „szumu” w metodzie gradientu prostego. Wariancja w obrębie batch’a jest nie tylko użyteczna, ale wręcz niezbędna. Odporność na nierównomierne dane jest dodatkową korzyścią dla wdrożeń w rzeczywistych warunkach.

Przyszłość uczenia maszynowego

FOP to fundamentalna zmiana w podejściu do optymalizacji, która pozwala na stabilne, szybkie i skalowalne trenowanie przy niespotykanych dotąd rozmiarach batch’y. Autorzy wskazują, że „szum”, który obecnie usuwamy, może być w przyszłości wykorzystywany jako mapa terenu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *