LLMR & D

Nowy paradygmat w AI: Transformery energetyczne rewolucją w rozumowaniu maszyn

Współczesne sukcesy sztucznej inteligencji, zwłaszcza w obszarze dużych modeli językowych (LLM), opierają się w dużej mierze na tzw. myśleniu Systemu 1 – szybkim, intuicyjnym przetwarzaniu informacji. Modele te, choć imponujące w generowaniu tekstu czy odpowiadaniu na proste pytania, napotykają na bariery w zakresie myślenia Systemu 2, które wymaga wolniejszego, analitycznego rozumowania.

Próby wzmocnienia zdolności rozumowania w AI, takie jak uczenie wzmacniające (reinforcement learning, RL) czy technika „best-of-N” (generowanie wielu odpowiedzi i wybór najlepszej), mają swoje ograniczenia. Często są skuteczne jedynie w wąsko zdefiniowanych problemach, jak zadania matematyczne czy programistyczne, a ich efektywność spada w przypadku bardziej kreatywnych wyzwań. Co więcej, istnieją dowody sugerujące, że metody te nie uczą modeli nowych umiejętności rozumowania, a jedynie wzmacniają wykorzystanie już znanych wzorców, co ogranicza zdolność do rozwiązywania problemów wymagających prawdziwej eksploracji.

Modele oparte na energii – nowe podejście

Naukowcy z Uniwersytetu Illinois Urbana-Champaign i Uniwersytetu Wirginii zaproponowali architekturę Energy-Based Transformers (EBTs), która stanowi odpowiedź na te wyzwania. Ich koncepcja opiera się na modelach energetycznych (Energy-Based Models, EBMs), gdzie zamiast bezpośredniego generowania odpowiedzi, model uczy się funkcji „energii”. Funkcja ta ocenia kompatybilność danej prognozy z wejściem: niska wartość energii oznacza wysoką zgodność, natomiast wysoka wartość sygnalizuje słabe dopasowanie.

Filozofia tego podejścia, nazwana „myśleniem jako optymalizacją względem nauczonego weryfikatora”, zakłada, że proces rozumowania polega na progresywnym udoskonalaniu początkowej, często losowej prognozy poprzez minimalizację jej energii. To podejście czerpie z obserwacji, że weryfikacja rozwiązania jest często prostsza niż jego generowanie od podstaw.

Projekt skoncentrowany na weryfikacji adresuje trzy kluczowe aspekty rozumowania AI. Po pierwsze, umożliwia dynamiczną alokację zasobów obliczeniowych, czyli modele mogą „myśleć” dłużej nad trudniejszymi problemami, a krócej nad prostszymi. Po drugie, EBMs naturalnie radzą sobie z niepewnością problemów realnego świata, gdzie rzadko istnieje tylko jedna poprawna odpowiedź. Po trzecie, działają jako własne weryfikatory, eliminując potrzebę zewnętrznych modeli.

W przeciwieństwie do systemów wykorzystujących oddzielne generatory i weryfikatory, EBMs integrują obie funkcje w jeden, spójny model. Kluczową zaletą tego rozwiązania jest lepsza generalizacja. Ponieważ weryfikacja rozwiązania na nowych, nieznanych danych jest często łatwiejsza niż generowanie poprawnej odpowiedzi, EBMs lepiej radzą sobie w nieznanych scenariuszach.

EBTs w praktyce: Efektywność i generalizacja

Mimo obiecujących założeń, historycznie EBMs miały problemy ze skalowalnością. Aby to przezwyciężyć, naukowcy wprowadzili EBTs, czyli specjalizowane modele transformerowe zaprojektowane dla tego paradygmatu. EBTs są szkolone tak, aby najpierw weryfikować kompatybilność między kontekstem a prognozą, a następnie udoskonalać prognozy, aż znajdą wyjście o najniższej energii (najbardziej kompatybilne). Ten proces skutecznie symuluje proces myślenia dla każdej predykcji.

W testach EBTs porównano z ustabilizowanymi architekturami, takimi jak Transformer++ (dla dyskretnych modality) i Diffusion Transformer (DiT) dla ciągłych modality. Oceniano je pod kątem „skalowalności uczenia” (efektywność treningu) i „skalowalności myślenia” (poprawa wydajności przy większych obliczeniach w czasie wnioskowania).

EBTs wykazały do 35% wyższą efektywność w treningu w porównaniu do Transformer++, co oznacza szybsze i tańsze szkolenie. Co więcej, w czasie wnioskowania EBTs znacząco przewyższały istniejące modele w zadaniach rozumowania. Dzięki „dłuższemu myśleniu” (większa liczba kroków optymalizacji) i „samo-weryfikacji” (generowanie wielu kandydatów i wybór tego z najniższą energią), EBTs poprawiły wydajność modelowania języka aż o 29% więcej niż Transformer++.

W przypadku odszumiania obrazu, EBTs osiągnęły lepsze wyniki niż DiTs, zużywając przy tym o 99% mniej przebiegów. Kluczowe jest również to, że EBTs znacznie lepiej generalizują niż inne architektury. Nawet przy tej samej bądź gorszej wydajności pretreningu, EBTs przewyższały istniejące modele w zadaniach końcowych, szczególnie tych, które wymagały radzenia sobie z danymi daleko poza dystrybucją treningową.

Perspektywy dla przyszłości AI

Badania sugerują, że korzyści z „myślenia” EBTs nie są jednolite dla wszystkich danych, ale rosną pozytywnie wraz z wielkością przesunięć dystrybucyjnych, podkreślając rolę myślenia jako kluczowego mechanizmu do solidnej generalizacji poza dystrybucją treningową.

Ten przełom ma dwie istotne konsekwencje. Po pierwsze, na masową skalę dzisiejszych modeli podstawowych, EBTs mogą znacząco przewyższać klasyczną architekturę transformera. Autorzy badań przewidują, że w skali nowoczesnych modeli podstawowych trenowanych na 1000 razy większej ilości danych z modelami 1000 razy większymi, wydajność pretreningu EBTs będzie znacznie lepsza niż w przypadku Transformer++.

Po drugie, EBTs wykazują znacznie lepszą efektywność danych. To kluczowa zaleta w erze, gdzie wysokiej jakości dane treningowe stają się głównym wąskim gardłem w skalowaniu AI. Mimo odmiennego mechanizmu wnioskowania, architektura EBT jest wysoce kompatybilna z transformerami, co pozwala na ich bezpośrednie zastosowanie jako zamienników dla obecnych LLM.

Dla deweloperów i przedsiębiorstw, silne zdolności rozumowania i generalizacji EBT mogą stanowić potężną i niezawodną podstawę do budowy nowej generacji aplikacji AI, szczególnie tych wymagających kluczowych decyzji, wysokiego poziomu bezpieczeństwa lub operacji na ograniczonych danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *