GamingR & D

NitroGen NVIDII: Przełom w nauczaniu AI gier wideo z wizualnych danych

Wraz z dynamicznym rozwojem sztucznej inteligencji, jej zastosowania rozszerzają się na coraz to nowe obszary. Najnowszym osiągnięciem, które budzi szczególne zainteresowanie, jest NitroGen – otwarty, wizyjny model podstawowy, stworzony przez zespół badawczy NVIDII. Projekt ten koncentruje się na nauczaniu agentów AI gry w komercyjne gry wideo, czerpiąc dane bezpośrednio z obrazu i działań gracza, zarejestrowanych w filmach dostępnych w internecie.

Zrozumienie działania poprzez obserwację: NitroGen i dane z internetu

Kluczową innowacją NitroGena jest podejście do pozyskiwania danych. Model jest szkolony na imponującej bazie 40 000 godzin rozgrywki, obejmującej ponad 1000 gier. Co istotne, te dane pochodzą z publicznie dostępnych materiałów wideo, które często zawierają wizualizacje działania kontrolera – na przykład nakładki na ekranie prezentujące ruchy gałek analogowych czy naciśnięcia przycisków. Zespół badawczy NVIDII zebrał 71 000 godzin surowego materiału, a następnie zastosował rygorystyczne filtrowanie, aby wybrać najbardziej wartościowe fragmenty, co ostatecznie doprowadziło do powstania zbioru 40 000 godzin wysokiej jakości danych.

Dzięki zastosowaniu zaawansowanych technik ekstrakcji, NitroGen potrafi odczytywać akcje na poziomie pojedynczych klatek. Proces ten realizowany jest w trzech etapach: lokalizacji nakładki kontrolera, analizy jej zawartości przy użyciu modelu SegFormer oraz rafinacji pozycji joysticków i filtrowania segmentów o niskiej aktywności. Precyzja tej metody została potwierdzona testami, gdzie przewidywania pozycji joysticka osiągnęły R² na poziomie 0,84, a dokładność naciśnięć przycisków – 0,96. To dowodzi, że automatyczne anotacje są wystarczająco dokładne do szkolenia modeli na dużą skalę.

Uniwersalność i jednolita przestrzeń działań

NitroGen to nie tylko imponujące dane, ale także inteligentna architektura. Model obejmuje uniwersalny symulator, który integruje komercyjne gry Windows w interfejsie kompatybilnym z Gymnasium, pozwalając na interakcję klatka po klatce bez modyfikacji kodu gry. Co więcej, wprowadzono jednolitą przestrzeń działań, która umożliwia bezpośrednie przenoszenie polityki z jednej gry na drugą. Kontroler jest reprezentowany jako 16-wymiarowy wektor binarny dla przycisków i 4-wymiarowy wektor ciągły dla pozycji joysticków. Taka ujednolicona reprezentacja jest kluczowa dla możliwości generalizacji modelu.

Architektura samego modelu NitroGen opiera się na wzorcu GR00T N1, z pominięciem koderów języka i stanu, koncentrując się na koderze wizyjnym i pojedynczej głowicy akcji. Model przetwarza pojedynczą klatkę RGB o rozdzielczości 256×256 pikseli, kodując ją za pomocą transformera wizyjnego SigLIP 2. Następnie dyfuzyjny transformator (DiT) generuje 16-etapowe fragmenty przyszłych akcji, wykorzystując technikę dopasowania przepływu warunkowego (conditional flow matching). Warto podkreślić, że model o rozmiarze 4.93 × 108 parametrów jest szkolony wyłącznie za pomocą klonowania behawioralnego, bez użycia uczenia ze wzmocnieniem, co czyni jego wyniki tym bardziej imponującymi.

Wyniki i potencjał transferu wiedzy

Już po wstępnym trenowaniu na pełnym zbiorze danych, NitroGen 500M wykazuje znaczące zdolności w zakresie zeroshot, osiągając od 45 do 60 procent w zakresie ukończenia zadań w różnych typach gier i gatunkach. To wskazuje na dużą odporność modelu na szum informacyjny obecny w danych internetowych.

Prawdziwy potencjał NitroGena ujawnia się jednak w scenariuszach transferu wiedzy do nieznanych gier. Kiedy model jest dostrajany na nowym tytule, wykazuje średnią poprawę o około 10% w grach izometrycznych typu roguelike oraz około 25% w trójwymiarowych grach akcji RPG, w porównaniu do szkolenia od podstaw. W zadaniach bojowych z ograniczoną ilością danych (około 30 godzin), względna poprawa wzrasta nawet do 52%. To jasno wskazuje, że wstępne szkolenie na dużym zbiorze danych z NitroGenem stanowi solidną bazę, znacząco przyspieszającą i poprawiającą efektywność agentów AI w nowych, nieznanych środowiskach gier.

Otwarta struktura projektu, obejmująca zestaw danych, uniwersalny symulator i wstępnie wytrenowaną politykę, otwiera drzwi dla dalszych badań i innowacji w dziedzinie generalistycznych agentów gamingowych. NitroGen stanowi znaczący krok w kierunku stworzenia AI zdolnej do elastycznego rozumienia i wykonywania złożonych zadań w wielu różnych środowiskach gier, bez konieczności każdorazowego szkolenia od zera.