Mały model AI od Samsunga pokonuje gigantyczne LLM-y w zadaniach wymagających rozumowania
W wyścigu o dominację w dziedzinie sztucznej inteligencji, panuje przekonanie, że „im większy, tym lepszy”. Giganci technologiczni inwestują ogromne sumy w tworzenie coraz większych modeli językowych (LLM). Jednak, jak twierdzi Alexia Jolicoeur-Martineau z Samsung SAIL Montréal, istnieje alternatywna, bardziej efektywna droga – wykorzystanie małych modeli rekurencyjnych (TRM).
Wykorzystując model z zaledwie 7 milionami parametrów, co stanowi mniej niż 0,01% wielkości wiodących LLM-ów, TRM osiąga imponujące wyniki w trudnych testach, takich jak ARC-AGI, służącym do pomiaru inteligencji. Praca Samsunga podważa założenie, że skala jest jedynym sposobem na rozwój możliwości modeli AI, oferując bardziej zrównoważoną i efektywną alternatywę.
Ograniczenia obecnych rozwiązań
LLM-y, choć potrafią generować teksty zbliżone do ludzkich, mają trudności ze złożonym, wieloetapowym rozumowaniem. Generując odpowiedzi token po tokenie, pojedynczy błąd na początku procesu może zniweczyć całe rozwiązanie. Techniki takie jak Chain-of-Thought, gdzie model „myśli na głos”, aby rozłożyć problem na części, mają na celu złagodzenie tego problemu. Są one jednak kosztowne obliczeniowo, wymagają ogromnych ilości danych wysokiej jakości i nadal mogą prowadzić do błędnych wniosków.
Jak działa TRM?
TRM bazuje na Hierarchical Reasoning Model (HRM). HRM wprowadził metodę wykorzystującą dwie małe sieci neuronowe, które rekurencyjnie pracują nad problemem z różną częstotliwością. TRM używa pojedynczej, małej sieci, która rekurencyjnie poprawia zarówno swoje wewnętrzne „rozumowanie”, jak i proponowaną „odpowiedź”. Model otrzymuje pytanie, wstępne przypuszczenie odpowiedzi i utajoną cechę rozumowania. Następnie, iteracyjnie doprecyzowuje swoje rozumowanie, aktualizując predykcję końcowej odpowiedzi. Proces ten można powtarzać do 16 razy.
Co zaskakujące, badacze odkryli, że sieć dwuwarstwowa osiąga lepsze wyniki niż wersja czterowarstwowa. Zmniejszenie rozmiaru zapobiega przeuczeniu modelu, częstemu problemowi przy trenowaniu na mniejszych zbiorach danych.
TRM upraszcza także złożone uzasadnienia matematyczne stosowane przez poprzednika. Oryginalny model HRM wymagał założenia, że jego funkcje zbiegają się do punktu stałego, aby uzasadnić metodę treningową. TRM omija to, po prostu propagując wstecznie przez cały proces rekurencji. Samo to dało ogromny wzrost wydajności.
Imponujące wyniki
Wyniki mówią same za siebie. W zbiorze danych Sudoku-Extreme, TRM osiąga dokładność 87,4%, w porównaniu do 55% uzyskiwanych przez HRM. W Maze-Hard, zadaniu polegającym na znajdowaniu długich ścieżek w labiryntach 30×30, TRM uzyskuje 85,3% w porównaniu do 74,5% HRM.
Co najważniejsze, TRM robi ogromne postępy w Abstraction and Reasoning Corpus (ARC-AGI), teście zaprojektowanym do pomiaru inteligencji płynnej w AI. Z zaledwie 7 milionami parametrów, TRM osiąga 44,6% dokładności na ARC-AGI-1 i 7,8% na ARC-AGI-2. Przewyższa to HRM. Dla porównania, Gemini 2.5 Pro uzyskuje zaledwie 4,9% na ARC-AGI-2.
Proces treningowy dla TRM również został usprawniony. Uproszczono mechanizm adaptacyjny o nazwie ACT, który decyduje, kiedy model ulepszył odpowiedź i może przejść do nowej próbki danych. Zmiana ta została wprowadzona bez większej różnicy w uogólnieniu końcowym.
Przyszłość rozwoju AI
Badania Samsunga stanowią przekonujący argument przeciwko obecnej tendencji rozwoju coraz większych modeli AI. Pokazują, że dzięki projektowaniu architektur, które potrafią iteracyjnie rozumować i samodzielnie się poprawiać, można rozwiązywać trudne problemy za pomocą ułamka zasobów obliczeniowych.
