LLM

Ewolucja architektury Transformer: dynamiczne pętle i banki pamięci kluczem do logicznego myślenia AI

Współczesne modele językowe, choć imponujące, napotykają na fundamentalną barierę: sztywną strukturę obliczeniową. Tradycyjny Transformer przetwarza dane warstwa po warstwie, poświęcając tyle samo mocy obliczeniowej na proste skojarzenia, co na skomplikowane problemy logiczne. Zespół naukowców z Instytutu Lamarr, Fraunhofer IAIS oraz Uniwersytetu w Bonn postanowił zburzyć ten schemat, projektując architekturę, która potrafi „zatrzymać się i pomyśleć” nad trudniejszym fragmentem tekstu.

Równania wymagają namysłu, fakty potrzebują miejsca

Kluczem do przełomu okazało się rozdzielenie procesów logicznego rozumowania od magazynowania wiedzy faktograficznej. W klasycznych modelach obie te funkcje są wymieszane w parametrach sieci. Nowa architektura wprowadza dwa niezależne mechanizmy: adaptacyjne pętle (ang. adaptive looping) oraz dedykowane banki pamięci. Dzięki temu każda z dwunastu warstw modelu może autonomicznie zdecydować, ile razy powtórzy dany blok obliczeniowy, zanim przekaże dane dalej.

Wyniki eksperymentów są jednoznaczne. W testach matematycznych model wykorzystujący do trzech iteracji na warstwę uzyskał o 22% lepsze wyniki niż bazowa wersja statyczna. Szczególnie imponujący jest fakt, że 12-warstwowa jednostka z mechanizmem pętli pokonała konwencjonalny, 36-warstwowy model o 6,4%, zużywając przy tym dokładnie tyle samo zasobów obliczeniowych podczas wnioskowania. Sugeruje to, że głębokość sieci nie jest jedynym, a być może nawet nie najbardziej efektywnym sposobem na zwiększenie „inteligencji” maszyn.

Specjalizacja warstw i próg biegłości

Analiza procesu uczenia się modelu ujawniła fascynujące zjawisko samoorganizacji. System, nie otrzymując żadnych odgórnych wytycznych dotyczących liczby powtórzeń, samodzielnie wykształcił hierarchię pracy. Wczesne warstwy sieci niemal nigdy nie korzystały z pętli, skupiając się na prostych operacjach składniowych. Natomiast głębsze warstwy stały się centrami intensywnego przetwarzania, wielokrotnie zapętlając obliczenia i regularnie sięgając do banków pamięci.

Badacze zauważyli również istnienie specyficznego „progu biegłości”. Modele zaczynają efektywnie korzystać z dodatkowego czasu na myślenie dopiero po osiągnięciu pewnego poziomu zrozumienia języka. Na wczesnych etapach treningu mechanizm pętli pozostawał bezczynny – system musiał najpierw opanować podstawy komunikacji, aby móc zacząć optymalizować bardziej złożone procesy logiczne.

Pamięć jako niezbędny fundament

Choć pętle drastycznie poprawiają zdolności matematyczne i logiczne, okazały się niemal bezużyteczne w zadaniach wymagających wiedzy ogólnej czy intuicji fizycznej. Tutaj do gry wkraczają banki pamięci: 1024 lokalne sloty na warstwę oraz 512 slotów globalnych. Naukowcy wykazali, że wiedzy faktograficznej nie da się „wymyślić” poprzez dłuższą analizę – musi być ona gdzieś zapisana.

Relacja między tymi mechanizmami jest komplementarna. Warstwy, które intensywniej pracują nad problemem, częściej sięgają po dane z pamięci, co wskazuje na to, że bardziej zaawansowane operacje logiczne wymagają gęstszego kontekstu faktograficznego. Choć badania przeprowadzono na stosunkowo niewielkim modelu (200 milionów parametrów), rzucają one nowe światło na to, jak projektować wydajniejsze i bardziej elastyczne systemy AI, które nie marnują energii na oczywistości, rezerwując ją na prawdziwe wyzwania.