Gemini Robotics 1.5: DeepMind wprowadza agenta robotycznego do realnego świata dzięki architekturze ER↔VLA
Google DeepMind ogłosił premierę Gemini Robotics 1.5, przełomowego systemu, który ma zrewolucjonizować sposób, w jaki roboty oddziałują ze światem. Innowacją jest rozdzielenie inteligencji ucieleśnionej na dwa komplementarne modele: Gemini Robotics-ER 1.5, odpowiedzialny za rozumowanie wysokopoziomowe (orientacja przestrzenna, planowanie, ocena postępów, użycie narzędzi) oraz Gemini Robotics 1.5, dedykowany sterowaniu wizualno-motorycznemu niskiego poziomu. System celuje w długoterminowe zadania w rzeczywistym świecie – na przykład pakowanie wieloetapowe czy sortowanie odpadów z uwzględnieniem lokalnych przepisów.
Co dokładnie wchodzi w skład tego systemu?
- Gemini Robotics-ER 1.5 (rozumujący/orkiestrator): Multimodalny planner, który przetwarza obrazy/wideo (opcjonalnie audio), lokalizuje odniesienia za pomocą punktów 2D, śledzi postępy i wywołuje zewnętrzne narzędzia (wyszukiwanie w sieci, lokalne API) w celu pobrania ograniczeń przed wydaniem celów podrzędnych. Jest dostępny przez Gemini API w Google AI Studio.
- Gemini Robotics 1.5 (kontroler VLA): Model wizualno-językowo-akcyjny, który konwertuje instrukcje i percepcje na polecenia motoryczne, generując jawne ślady „pomyśl zanim zadziałasz”, aby rozłożyć długie zadania na krótkoterminowe umiejętności. Dostęp jest ograniczony do wybranych partnerów podczas wstępnego wdrożenia.
Dlaczego rozdzielono procesy poznawcze od sterowania? Wcześniejsze modele VLA (Vision-Language-Action) miały trudności z solidnym planowaniem, weryfikacją sukcesu i uogólnianiem między różnymi platformami. Gemini Robotics 1.5 izoluje te problemy: Gemini Robotics-ER 1.5 zarządza deliberacją (rozumowanie o scenie, wyznaczanie celów podrzędnych, wykrywanie sukcesu), podczas gdy VLA specjalizuje się w wykonaniu (sterowanie wizualno-motoryczne w pętli zamkniętej). Ta modularność poprawia interpretowalność (widoczne ślady wewnętrzne), naprawę błędów i niezawodność w długim okresie.
Kluczowym elementem jest transfer ruchu: uczenie modelu VLA na ujednoliconej reprezentacji ruchu, zbudowanej z danych z różnych robotów (ALOHA, dwuramienny Franka i Apptronik Apollo), dzięki czemu umiejętności nabyte na jednej platformie mogą być bezproblemowo przenoszone na inną. Redukuje to potrzebę gromadzenia danych dla każdego robota i zmniejsza luki między symulacją a rzeczywistością dzięki ponownemu wykorzystaniu wcześniejszych doświadczeń.
Zespół badawczy zaprezentował kontrolowane porównania A/B na rzeczywistym sprzęcie i scenach MuJoCo. Obejmuje to:
- Uogólnienie: Robotics 1.5 przewyższa wcześniejsze wersje Gemini Robotics w zakresie wykonywania instrukcji, uogólniania akcji, uogólniania wizualnego i uogólniania zadań na trzech platformach.
- Umiejętności przenoszone między robotami: Transfer ruchu przynosi mierzalne korzyści w postępach i sukcesach podczas przenoszenia umiejętności między platformami, zamiast jedynie poprawiać częściowe postępy.
- „Myślenie” poprawia działanie: Włączenie śladów myślowych VLA zwiększaCompletion zadań długoterminowych i stabilizuje zmiany planów w trakcie realizacji.
- Korzyści dla agenta od końca do końca: Połączenie Gemini Robotics-ER 1.5 z agentem VLA znacznie poprawia postępy w zadaniach wieloetapowych (np. organizacja biurka, sekwencje w stylu gotowania) w porównaniu z orkiestratorem opartym na Gemini 2.5 Flash.
Zespół badawczy DeepMind podkreśla warstwowe sterowanie: dialog/planowanie zgodne z zasadami, bezpieczne uziemienie (np. nie wskazywanie niebezpiecznych obiektów), niskopoziomowe ograniczenia fizyczne i rozszerzone zestawy ewaluacyjne (np. testowanie scenariuszy w stylu ASIMOV i automatyczne red-teaming w celu wywołania błędów w skrajnych przypadkach). Celem jest wychwycenie halucynowanych możliwości lub nieistniejących obiektów przed uruchomieniem procesu.
Gemini Robotics 1.5 stanowi przesunięcie od robotyki „pojedynczej instrukcji” w kierunku autonomii wieloetapowej z jawnym wykorzystaniem internetu/narzędzi i uczeniem się międzyplatformowym – zestaw możliwości istotny dla robotyki konsumenckiej i przemysłowej. Wczesny dostęp partnerski koncentruje się na renomowanych dostawcach robotyki i platformach humanoidalnych.
Podsumowanie kluczowych wniosków:
- Architektura dwumodelowa (ER ↔ VLA): Gemini Robotics-ER 1.5 obsługuje rozumowanie ucieleśnione – uziemienie przestrzenne, planowanie, szacowanie sukcesu/postępów, wywołania narzędzi – podczas gdy Robotics 1.5 to wykonawca wizualno-językowo-akcyjny, który wydaje polecenia motoryczne.
- Sterowanie „pomyśl zanim zadziałasz”: VLA generuje jawne, pośrednie rozumowanie/ślady podczas wykonywania, poprawiając dekompozycję długoterminową i adaptację w trakcie zadania.
- Transfer ruchu między platformami: Pojedynczy punkt kontrolny VLA ponownie wykorzystuje umiejętności w różnych robotach (ALOHA, dwuramienny Franka, Apptronik Apollo), umożliwiając wykonanie bez/z niewielką liczbą przykładów między robotami, zamiast uczenia się dla każdej platformy.
- Planowanie wspomagane narzędziami: ER 1.5 może wywoływać narzędzia zewnętrzne (wyszukiwanie w sieci) w celu pobrania ograniczeń, a następnie warunkować plany – na przykład pakowanie po sprawdzeniu lokalnej pogody lub zastosowanie przepisów recyklingowych specyficznych dla danego miasta.
- Wymierne ulepszenia w porównaniu z wcześniejszymi rozwiązaniami: Raport techniczny dokumentuje wyższe uogólnienie instrukcji/akcji/obrazów/zadań oraz lepsze postępy/sukcesy na rzeczywistym sprzęcie i dopasowanych symulatorach. Wyniki obejmują transfery między platformami i zadania długoterminowe.
- Dostępność i dostęp: ER 1.5 jest dostępny przez Gemini API (Google AI Studio) z dokumentacją, przykładami i funkcjami podglądu. Dostęp do Robotics 1.5 (VLA) jest ograniczony do wybranych partnerów; istnieje publiczna lista oczekujących.
- Bezpieczeństwo i ocena: DeepMind podkreśla warstwowe zabezpieczenia (planowanie zgodne z zasadami, bezpieczne uziemienie, ograniczenia fizyczne) oraz ulepszony punkt odniesienia ASIMOV oraz oceny wrogie do systemu – testy w celu wykrywania potencjalnych, ryzykownych zachowań.
Gemini Robotics 1.5 wprowadza wyraźny podział rozumowania ucieleśnionego i sterowania, dodaje transfer ruchu w celu ponownego wykorzystania danych między robotami i prezentuje powierzchnię rozumowania (uziemienie punktowe, szacowanie postępów/sukcesów, wywołania narzędzi) programistom za pośrednictwem Gemini API. Dla zespołów budujących agentów w świecie rzeczywistym projekt zmniejsza obciążenie danych dla każdej platformy i wzmacnia niezawodność długoterminową, przy jednoczesnym zachowaniu bezpieczeństwa dzięki dedykowanym zestawom testowym i barierom ochronnym.
