Robotyka

Praktyczna granica głębokości: Jak 1024 warstwy sieci zmieniły niezdarnego robota w akrobatę

W sektorze sztucznej inteligencji utarło się przekonanie, że o ile modele językowe czerpią potężne korzyści ze skali, o tyle uczenie przez wzmacnianie (Reinforcement Learning – RL) jest pod tym względem kapryśne. Podczas gdy Llama 3 czy GPT-4 przetwarzają dane przez setki warstw sieci neuronowych, cyfrowe agenty uczące się metodą prób i błędów zazwyczaj zatrzymują się na strukturach o głębokości od dwóch do pięciu warstw. Próby budowania głębszych sieci w RL często kończyły się niestabilnością treningu i spadkiem wydajności. Zespół naukowców z Uniwersytetu Princeton oraz Politechniki Warszawskiej postanowił jednak przełamać ten impas.

Problem rzadkiego sygnału

Głównym wyzwaniem w skalowaniu RL jest drastyczny niedobór informacji zwrotnej. W modelach językowych każde słowo w tekście służy jako sygnał uczący. Tymczasem agent w środowisku symulowanym otrzymuje nagrody rzadko – często dopiero wtedy, gdy po setkach ruchów uda mu się osiągnąć cel. Aby zaradzić temu problemowi, badacze wykorzystali algorytm Contrastive RL (CRL). Zamiast polegać na tradycyjnym systemie punktowym, CRL uczy agenta rozumowania poprzez porównywanie: czy dany ruch wygląda jak element ścieżki prowadzącej do sukcesu? Dzięki temu system samodzielnie generuje gęsty sygnał do nauki, zbliżając do siebie w przestrzeni matematycznej skuteczne kombinacje działań i odpychając te błędne.

Przełamanie bariery stabilności

Zastosowanie sieci o głębokości 1024 warstw wymagało jednak czegoś więcej niż tylko nowego algorytmu. Naukowcy musieli połączyć trzy techniki architektoniczne: połączenia rezydualne (zapobiegające zanikaniu sygnału), specyficzną normalizację kroków uczenia oraz dedykowaną funkcję aktywacji. Z artykułu wynika jasno: usunięcie choćby jednego z tych elementów sprawia, że cały system traci stabilność. Kluczowym wnioskiem z eksperymentów jest fakt, że to głębokość, a nie szerokość sieci (liczba neuronów w warstwie), determinuje sukces. Osiem warstw CRL potrafi pokonać znacznie szersze, ale płytsze sieci, zużywając przy tym mniej parametrów.

Od upadku do parkouru

Najbardziej fascynujące okazały się nagłe skoki jakościowe obserwowane po przekroczeniu określonych progów głębokości. Symulowany humanoid wyposażony w cztery warstwy sieci ledwo potrafił rzucić się w stronę celu. Przy 16 warstwach agent nauczył się poruszać w pozycji wyprostowanej. Dopiero jednak ekstremalne skalowanie do 256 warstw i więcej pozwoliło na wyłonienie się zachowań niespotykanych dotąd w tej klasie systemów. Robot zaczął stosować techniki akrobatyczne, przeskakując nad ścianami i optymalizując trasę w sposób, który wcześniej wydawał się nieosiągalny dla metod uczenia przez wzmacnianie bez udziału ludzkich demonstracji.

Wyzwania i cena postępu

Mimo spektakularnych wyników – w najtrudniejszych zadaniach wydajność wzrosła ponad tysiąckrotnie względem standardów – nowa metoda ma swoje ograniczenia. Głębokie sieci wymagają potężnych zasobów obliczeniowych, co znacznie wydłuża czas treningu. Dodatkowo, testy przeprowadzano dotąd głównie w środowisku symulacyjnym, a skuteczność podejścia w ustawieniach offline (gdzie agent nie może już interweniować w otoczenie) pozostaje ograniczona. Niemniej, praca ta stanowi silny dowód na to, że prawa skalowania, które zrewolucjonizowały przetwarzanie tekstu, mogą stać się fundamentem nowej generacji autonomicznych robotów.