GamingR & DRozumowanie

Gry wideo kluczem do lepszego rozumowania matematycznego multimodalnych modeli AI?

Współczesne modele sztucznej inteligencji, aby osiągnąć biegłość w danej dziedzinie, są zazwyczaj intensywnie trenowane na ogromnych zbiorach danych specyficznych dla problemu. Najczęściej oznacza to skrupulatnie przygotowane, ludzkie zbiory danych, ale nowe badanie sugeruje, że nie zawsze jest to najbardziej efektywna ścieżka, zwłaszcza w kontekście złożonego rozumowania matematycznego AI.

Zespół naukowców z Rice University, Johns Hopkins University i Nvidii zaprezentował alternatywną metodę szkolenia multimodalnych modeli AI. Nazwana „Visual Game Learning” (ViGaL), opiera się ona na założeniu, że proste gry arkadowe, takie jak Snake i Tetris, mogą skuteczniej niż specjalistyczne zbiory danych matematycznych rozwijać podstawowe zdolności rozumowania. Badacze wykorzystali model Qwen2.5-VL-7B jako punkt wyjścia do eksperymentu.

Gry jako motor umiejętności transferowalnych

Pomysł czerpie inspirację z kognitywistyki, która od dawna wskazuje na rolę gier w rozwijaniu ogólnych umiejętności rozwiązywania problemów. W ramach badania, badacze stworzyli dwa niestandardowe środowiska gry, oparte na popularnych tytułach Snake i Tetris, z których każde miało na celu trenowanie odmiennych aspektów myślenia. W wariancie Snake model operował na siatce 10×10, kontrolując dwa węże w rywalizacji o jabłka. W grze inspirowanej Tetrisem, modelowi prezentowano obiekty 3D z różnych perspektyw, a jego zadaniem było rozpoznanie ich po obrocie o 90 lub 180 stopni.

Na potrzeby treningu wygenerowano 36 000 przykładów dla każdej gry, z regulowanym poziomem trudności. Co ciekawe, w przypadku obiektów 3D zastosowano Hunyuan3D do ich generowania. Okazało się, że trening na Snake znacząco poprawił zdolności modelu w zakresie rozumowania z użyciem współrzędnych 2D i wyrażeń matematycznych. Z kolei gra rotacyjna usprawniła jego precyzję w szacowaniu kątów i długości.

Konkurencja z dedykowanymi zbiorami danych

Analizując wyniki, trening na grach Snake i rotacyjnych pozwolił modelowi przewyższyć MM-Eureka-Qwen-7B – model specjalnie trenowany na danych matematycznych – osiągając 50,6% dokładności w porównaniu do 50,1% na benchmarkach matematycznych. Jeszcze bardziej spektakularne okazały się postępy w przypadku problemów geometrycznych, gdzie wydajność modelu niemal podwoiła się, częściowo z powodu słabych wyników MM-Eureka na benchmarku Geo3K. Pomimo mniejszej różnicy w porównaniu z innymi wyspecjalizowanymi modelami, przewaga ViGaL była zauważalna.

ViGaL wykazał również imponującą skuteczność w porównaniu z systemami zamkniętymi, osiągając średnią dokładność 53,9% na wszystkich benchmarkach. Jest to wynik lepszy niż ChatGPT-4o (47,5%), choć nieznacznie gorszy od Gemini 2.0 Flash (55,4%). Na trudniejszych problemach matematycznych ten stosunkowo niewielki, retrainowany model deklasował znacznie większego GPT-4o (64,7% vs. 55,9%). W bardziej ogólnych zadaniach, ViGaL nieznacznie ustępował swojemu bazowemu modelowi i był kilka procent za GPT-4o.

Co więcej, model został poddany testom w grach Atari, zupełnie innych od jego środowisk treningowych. Tu niemal podwoił wynik bazowego modelu, co sugeruje wysoką transferowalność zdobytej wiedzy.

Nauka przez wzmocnienie wygrywa z fine-tuningiem

Kluczowe okazały się instrukcje myślenia krok po kroku. Precyzyjne wskazówki, takie jak „znajdź najbliższe jabłko, obliczając odległości Manhattan” dla Snake, czy „zidentyfikuj ważne osie symetrii” dla gry rotacyjnej, zwiększyły dokładność o 1,9 punktu procentowego. Istotny był również projekt funkcji nagrody; model musiał identyfikować zarówno optymalne, jak i najgorsze ruchy, a takie uczenie kontrastywne dodało kolejne 1,8 punktu. Regulacja trudności gry – na przykład zmiana długości węża – dodatkowo stabilizowała trening.

Ogólnie rzecz biorąc, uczenie przez wzmocnienie z nagrodami zwiększyło wydajność o 12,3%, podczas gdy standardowe nadzorowane fine-tuning na tych samych danych faktycznie pogorszyło wyniki, obniżając dokładność o 1,9%. Skalowanie danych treningowych również przyniosło korzyści: podwojenie danych poprawiło wyniki o kolejne 1,3 punktu.

W kierunku nowego paradygmatu treningowego

Prezentowane wyniki wskazują na potencjalnie nowy kierunek w szkoleniu AI. Zamiast polegać na kosztownych, ręcznie etykietowanych danych, syntetyczne gry mogą stanowić skalowalne zadania treningowe, które rozwijają ogólne umiejętności rozumowania. Badacze sugerują, że przyszłe prace mogłyby eksplorować szerszą gamę gier jako źródła nauki w celu budowania bardziej odpornej i wszechstronnej sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *