Robotyka

Koniec mitu o samowystarczalności AI w robotyce. System CaP-X pokazuje, czego brakuje modelom językowym

W sektorze robotyki od dawna tli się spór o to, czy przyszłość należy do modeli szkolonych na potężnych zbiorach danych ruchowych, czy może do uniwersalnych modeli językowych (LLM) generujących kod sterujący. Najnowsza publikacja badaczy z Nvidii, UC Berkeley, Stanforda oraz CMU rzuca nowe światło na ten dylemat. Framework CaP-X, będący owocem tej współpracy, systematycznie obnaża słabości obecnych modeli AI, jednocześnie wskazując ścieżkę ich naprawy poprzez tzw. agentyczne rusztowania.

Iluzja autonomii: Dlaczego giganci zawodzą?

Wyniki testów przeprowadzonych na dwunastu czołowych modelach – w tym Gemini-3-Pro, GPT-5.2 i Claude 4.5 – są otrzeźwiające. Żaden z nich, działając samodzielnie, nie zbliżył się do niezawodności programów napisanych przez człowieka. Problemem nie jest brak logiki, lecz przepaść między abstrakcyjnym kodem a fizyczną rzeczywistością. Gdy modele mają dostęp do wysokopoziomowych funkcji typu „podnieś przedmiot”, radzą sobie sprawnie. Kryzys następuje w momencie, gdy muszą operować na niskim poziomie: samodzielnie zarządzać segmentacją obrazu, planowaniem chwytu czy kinematyką odwrotną.

Co ciekawe, karmienie modeli surowym obrazem z kamer pogarsza sytuację. Badacze zauważyli brak „wyrównania cross-modalnego” – modele AI świetnie piszą kod i analizują tekst, ale rzadko potrafią spójnie wnioskować o kodzie w kontekście dynamicznie zmieniającego się obrazu fizycznego. To właśnie ten brak intuicji fizycznej sprawia, że wystarczy drobna zmiana w opisie zadania, by algorytm całkowicie się pogubił.

CaP-Agent0: Inteligencja wspomagana strukturą

Odpowiedzią na te bolączki jest CaP-Agent0 – system, który nie wymaga dodatkowego trenowania, lecz narzuca modelom rygorystyczną metodologię pracy. Zamiast liczyć na szczęśliwy traf przy pierwszej próbie, system generuje jednocześnie dziewięć różnych rozwiązań, które następnie są syntetyzowane przez agenta nadzorującego. Kluczową innowacją jest Visual Differencing Module – moduł, który tłumaczy obraz na tekst, opisując zmiany w otoczeniu po każdym ruchu robota. Dzięki temu model zamiast patrzeć na piksele, czyta precyzyjne raporty o tym, co faktycznie wydarzyło się w fizycznej przestrzeni.

Inspiracją dla zespołu był system Voyager, znany z automatyzacji działań w grze Minecraft. CaP-Agent0 buduje własną bibliotekę funkcji wielokrotnego użytku: jeśli uda mu się poprawnie przefiltrować pozę chwytu, zapisuje to rozwiązanie do przyszłego wykorzystania. Taka akumulacja doświadczenia pozwoliła systemowi dorównać lub przewyższyć ludzki kod w większości testowanych zadań manipulacyjnych.

Symulacja jako poligon doświadczalny

Projekt idzie jednak o krok dalej, wprowadzając CaP-RL – metodę reinforcement learningu, która pozwala uczyć modele AI sterowania poprzez informację zwrotną z symulatorów fizycznych. Efekty są spektakularne: model Qwen2.5-Coder-7B poddany takiemu treningowi zwiększył swoją skuteczność w układaniu kostek z marnych 4% do 44%. Co najważniejsze, ten sam model przeniesiony na fizycznego robota Franka osiągnął 76% skuteczności bez żadnych dodatkowych modyfikacji.

Taki przeskok jest możliwy, ponieważ AI uczy się optymalizacji poprzez abstrakcyjne interfejsy programistyczne, a nie surowy obraz, co niemal całkowicie eliminuje problem „szczeliny rzeczywistości” (reality gap) dzielącej symulację od prawdziwego świata. Przyszłość, jaką rysują twórcy CaP-X, to układy hybrydowe: agentyczne systemy decyzyjne zajmujące się logiką wysokopoziomową oraz wyspecjalizowane modele typu VLA (Vision-Language-Action), odpowiedzialne za precyzyjną, milimetrową kontrolę silników. Cały framework został udostępniony społeczności jako open-source, co może znacząco przyspieszyć prace nad faktycznie użytecznymi robotami domowymi i przemysłowymi.