Hyperagenci: Meta i naukowcy z UBC przełamują bariery rekurencyjnego samodoskonalenia AI
W świecie sztucznej inteligencji „Świętym Graalem” od dawna pozostaje idea rekurencyjnego samodoskonalenia. Chodzi o systemy, które nie tylko coraz lepiej rozwiązują postawione przed nimi zadania, ale przede wszystkim ewoluują w samym procesie uczenia się. Do niedawna modele takie jak teoretyczna Maszyna Gödla pozostawały w sferze akademickich abstrakcji. Przełom przyniósł model Darwin Gödel Machine (DGM), udowadniając skuteczność samodoskonalenia w programowaniu. Jednak nawet on posiadał szklany sufit: sztywny, zaprojektowany przez człowieka mechanizm metapoziomu, który ograniczał rozwój systemu do ram przewidzianych przez twórców.
Koniec nieskończonego regresu
Współpraca badaczy z Meta Superintelligence Labs, FAIR oraz czołowych uniwersytetów z Kanady i Wielkiej Brytanii zaowocowała powstaniem frameworku Hyperagents (DGM-H). Rozwiązuje on fundamentalny problem AI, jakim jest tak zwany nieskończony regres poziomów meta. W tradycyjnych systemach agent zadaniowy jest poprawiany przez agenta meta, co rodzi pytanie: kto poprawia tego drugiego? Dodawanie kolejnych warstw nadzoru jedynie przesuwa problem wyżej, nie rozwiązując go u podstaw.
Hyperagenci integrują agenta zadaniowego i agenta meta w jedną, autoreferencyjną strukturę kodu. Dzięki temu zabiegowi procedura modyfikacji stała się edytowalna. Maszyna nie szuka już tylko lepszego rozwiązania konkretnego problemu – ona aktywnie przebudowuje mechanizm odpowiedzialny za generowanie przyszłych usprawnień. To przejście od prostej optymalizacji do samomodyfikacji metapoznawczej.
Od robotyki po recenzje naukowe
Krytycznym ograniczeniem starszych modeli była konieczność zbieżności domeny zadania z procesem poprawy. W skrócie: AI świetnie uczyło się programować poprzez modyfikację kodu, ale te same mechanizmy zawodziły w zadaniach humanistycznych czy fizycznych. Hyperagenci zrywają z tą zależnością. Podczas testów w symulatorze Genesis, system miał za zadanie zaprojektować funkcje nagrody dla robota kroczącego. DGM-H zamiast dążyć do lokalnego optimum (stania prosto), samodzielnie odkrył, że strategia skakania pozwoli robotowi osiągnąć znacznie wyższy pułap, co przełożyło się na skok wyników z 0.060 do 0.372.
Podobną rewolucję odnotowano w automatyzacji recenzji artykułów naukowych. System przestał ograniczać się do powierzchownych korekt, tworząc zamiast tego wieloetapowe potoki ewaluacyjne z listami kontrolnymi i precyzyjnymi regułami decyzyjnymi. Zdolność do poprawy (wskaźnik imp@k) okazała się przy tym transferowalna – meta-strategie wypracowane w jednej dziedzinie, na przykład w robotyce, z sukcesem zastosowano w ocenianiu zadań z olimpiad matematycznych.
Samorodna infrastruktura inżynieryjna
Być może najbardziej fascynującym aspektem badań jest to, że Hyperagenci – bez wyraźnych instrukcji ze strony programistów – zaczęli tworzyć własną infrastrukturę inżynieryjną, aby wspierać swój wzrost. Systemy te samodzielnie zaimplementowały moduły śledzenia wydajności (logging), aby odróżnić trwałe zyski od regresji, oraz systemy pamięci operacyjnej do przechowywania hipotez przyczynowo-skutkowych.
Hyperagenci wykazują również wysoką świadomość zasobów (compute-aware planning). Wyczerpujący się budżet obliczeniowy zmuszał je do zmiany strategii: na początku eksperymentu stawiały na ryzykowne, fundamentalne zmiany architektoniczne, a pod koniec na konserwatywne wygładzanie istniejących rozwiązań. To dowód na to, że systemy te zaczynają zarządzać procesem badawczym w sposób, który do niedawna był zarezerwowany wyłącznie dla ludzkich inżynierów.
