Nowa architektura transformerów naśladująca analityczne myślenie
Współczesne modele sztucznej inteligencji, pomimo imponujących osiągnięć w przetwarzaniu języka naturalnego czy rozpoznawaniu obrazów, często zmagają się z zadaniami wymagającymi głębszego, analitycznego rozumowania. Ten problem, określany przez badaczy mianem braku „myślenia Systemu 2” – terminu Daniela Kahnemana opisującego powolne, świadome procesy poznawcze – dotyka szerokiego spektrum zastosowań, od złożonych operacji logicznych po zaawansowaną matematykę.
Naukowcy z Uniwersytetu Wirginii, Uniwersytetu Illinois w Urbanie i Champaign, Stanfordu, Harvardu oraz Amazon GenAI proponują nowatorskie rozwiązanie. W swoim artykule „Energy-Based Transformers are Scalable Learners and Thinkers” przedstawiają architekturę Energy-Based Transformer (EBT), która ma na celu nauczenie modeli AI iteracyjnego rozwiązywania problemów. Kluczowym założeniem jest tu traktowanie procesu myślowego jako optymalizacji, gdzie model stopniowo udoskonala swoją odpowiedź, minimalizując wartość „energii” – miary dopasowania rozwiązania do kontekstu.
Idea modelowania procesów w oparciu o energię nie jest nowa; była przedmiotem dyskusji w środowisku AI od lat, w tym przez Yann LeCuna z Mety. Unikalność EBT polega jednak na jej integracji z architekturą transformatorową oraz nowatorskim podejściu do skalowania obliczeń.
Skuteczność i skalowanie EBT
Eksperymenty pokazały, że EBT przewyższa standardowe warianty transformatorów, takie jak Transformer++. Badacze odnotowali do 35% wyższy wskaźnik skalowania EBT pod względem danych, liczby parametrów i zużycia mocy obliczeniowej. Oznacza to znacznie lepszą efektywność zarówno danych, jak i obliczeń, co jest kluczowe w dobie rosnących wymagań wobec modeli AI.
Prawdziwa rewolucja EBT ujawnia się jednak w zakresie „skalowalności myślenia” – zdolności modelu do poprawy wydajności poprzez alokację dodatkowych zasobów obliczeniowych w czasie rzeczywistym. W zadaniach językowych, EBT poprawił wyniki o niemal 29%, szczególnie w przypadku problemów, które znacząco odbiegały od danych treningowych. W testach usuwania szumów z obrazów, EBT okazał się wydajniejszy niż popularne Diffusion Transformers (DiTs), wymagając przy tym 99% mniej kroków obliczeniowych. Dodatkowo, modele EBT nauczyły się reprezentacji obrazów, które zapewniły około dziesięciokrotnie lepszą dokładność klasyfikacji w zbiorze ImageNet-1k, co wskazuje na głębsze rozumienie treści.
Wyzwania i przyszłość
Mimo obiecujących rezultatów, technologia EBT napotyka na pewne wyzwania. Głównym jest zapotrzebowanie na moc obliczeniową. Trening modeli EBT wymaga od 3.3 do 6.6 razy więcej operacji zmiennoprzecinkowych (FLOPs) niż standardowe transformatory. Ten zwiększony narzut obliczeniowy może stanowić barierę w wielu zastosowaniach komercyjnych.
Krytycy zwracają również uwagę, że badanie mierzy „myślenie Systemu 2” głównie poprzez poprawę wskaźnika perpleksji, a nie rzeczywiste zadania wymagające rozumowania. Brak jest także porównań z najnowocześniejszymi modelami rozumującymi, co wynikało z ograniczonego budżetu obliczeniowego. Ponadto, wszystkie przewidywania dotyczące skalowania oparto na eksperymentach z modelami do 800 milionów parametrów, co jest znacznie mniej niż w przypadku największych obecnie systemów AI. Pozostaje otwarte pytanie, czy przewagi EBT utrzymają się w przypadku modeli o znacznie większej skali.
Niezależnie od tych ograniczeń, Energy-Based Transformer stanowi intrygujący krok w kierunku stworzenia bardziej analitycznych i adaptacyjnych modeli AI, które będą w stanie sprostać wyzwaniom wymagającym nie tylko szybkiego rozpoznawania wzorców, ale także głębszego, systematycznego myślenia.
