ThinkAct NVIDII: Nowa era robotyki z planowaniem wizualnym opartym na wzmocnieniu
Współczesna robotyka stoi przed wyzwaniem integracji zdolności rozumowania językowego i wizualnego z precyzyjnym sterowaniem fizycznym. Tradycyjne modele wizualno-językowo-akcyjne (VLA), które bezpośrednio mapują wejścia multimodalne na działania, często napotykają ograniczenia w zakresie rozumowania, długoterminowego planowania oraz adaptacji do zmiennych warunków. Odpowiedzią na te wyzwania jest ThinkAct – nowatorska architektura opracowana przez badaczy z NVIDII i Narodowego Uniwersytetu Tajwanu.
ThinkAct to dwusystemowa struktura, która rozdziela zadania myślenia i działania asynchronicznie. Pierwszy komponent, rozumujący multimodalny MLLM (Multi-modal Large Language Model), odpowiada za etapowanie rozumowania scen wizualnych i instrukcji językowych. Wygenerowany w ten sposób latentny plan wizualny koduje intencje wysokiego poziomu oraz kontekst planowania.
Drugi moduł, model akcyjny, to polityka oparta na architekturze Transformer, która na podstawie otrzymanego planu wizualnego wykonuje zdekodowaną trajektorię jako konkretne działania robota w środowisku. Kluczowa w tej architekturze jest możliwość asynchronicznej pracy: MLLM może „myśleć” i generować plany z mniejszą częstotliwością, podczas gdy moduł akcyjny wykonuje precyzyjne sterowanie z wyższą szybkością. Takie podejście pozwala na efektywne zarządzanie zasobami obliczeniowymi, jednocześnie zachowując responsywność systemu.
Innowacja ThinkAct leży w zastosowaniu uczenia się ze wzmocnieniem (RL) do wizualnego planowania latentnego. System nagradzany jest za osiągnięcie celu (np. zgodność pozycji początkowej i końcowej z demonstracjami) oraz za precyzję trajektorii. Te wizualne nagrody są uzupełniane o punkty za poprawność formatu odpowiedzi, co skłania MLLM do generowania nie tylko trafnych, ale i fizycznie wykonalnych planów dla robota. Trening ThinkAct odbywa się wielostopniowo: od nadzorowanego dostrajania na danych z ręcznymi adnotacjami, przez optymalizację RL, aż po adaptację do konkretnych zadań poprzez uczenie się przez imitację.
Eksperymentalne wyniki ThinkAct są imponujące. Na benchmarkach manipulacji robotami, takich jak SimplerEnv i LIBERO, ThinkAct wyprzedza dotychczasowe modele o 11-17%, szczególnie w zadaniach wymagających długoterminowego planowania i przetwarzania złożonych danych wizualnych. System osiągnął 84,4% skuteczności w LIBERO, demonstrując zdolność do generalizacji i adaptacji do nowych umiejętności. Ponadto, w testach rozumowania wcielonego (EgoPlan-Bench2, RoboVQA, OpenEQA), ThinkAct wykazał wyższą precyzję planowania wieloetapowego oraz lepsze zrozumienie semantyczne.
Jedną z najbardziej obiecujących cech ThinkAct jest jego zdolność do adaptacji w warunkach niedoboru danych (few-shot adaptation). System potrafi znacząco zwiększyć skuteczność już przy zaledwie 10 demonstracjach, co podkreśla siłę planowania opartego na rozumowaniu w szybkim przyswajaniu nowych umiejętności i przystosowywaniu się do nieznanych środowisk. Większość dotychczasowych modeli, które skupiały się na prostym mapowaniu wejścia-wyjścia, nie dawały w tej materii takiej elastyczności.
ThinkAct wykazuje również zdolność do samoświadomości i korekty błędów. System potrafi wykrywać błędy wykonawcze (np. upuszczenie obiektu) i samodzielnie rewidować plany, aby sfinalizować zadanie. Ta emergentna cecha, oparta na bieżącym rozumowaniu wizualnym, stanowi krok w kierunku prawdziwie autonomicznych robotów potrafiących reagować na nieprzewidziane sytuacje. Roboty przyszłości, aby mogły działać bez ludzkiej interwencji, muszą charakteryzować się nie tylko zdolnością wykonania zadania, ale również jego naprawienia w przypadku niepowodzenia.
Badania NVIDII i Narodowego Uniwersytetu Tajwanu podkreślają, że kluczowe są zarówno nagrody za cel, jak i trajektorię, a usunięcie którejkolwiek z nich znacząco obniża wydajność systemu. Potwierdzono też, że podejście ThinkAct skaluje się, działając efektywnie nawet z mniejszymi modelami MLLM, co otwiera drogę do szerszego zastosowania.
ThinkAct to więcej niż tylko usprawnienie w dziedzinie AI – to fundament pod budowę nowej generacji robotów, które „myślą zanim działają”. Połączenie zaawansowanego rozumowania, samoadaptacji i zdolności do korygowania błędów, sprawia, że system NVIDII wyznacza nowy standard dla agentów AI. Rozwój ten może znacząco przyspieszyć integrację inteligentnych robotów w różnorodnych, złożonych środowiskach świata rzeczywistego.
