LLMR & DRobotyka

Roboty DeepMind uniezależniają się od chmury dzięki Gemini On-Device

Google DeepMind zaprezentowało Gemini Robotics On-Device, nową wersję swojego modelu robotycznego, która działa bezpośrednio na sprzęcie robota. To znaczący krok w kierunku autonomicznych maszyn, które mogą operować w środowiskach o niestabilnym lub braku dostępu do internetu.

Centralnym elementem Gemini Robotics On-Device jest model Vision-Language-Action (VLA), bazujący na wariancie Gemini Robotics-ER. Jego architektura obejmuje kręgosłup VLA, który pełni funkcję „mózgu”, interpretując dane wizualne i podejmując decyzje, oraz lokalny dekoder akcji, który przekłada te decyzje na ruchy. Cały cykl od percepcji do działania zajmuje zaledwie 250 milisekund, co jest wystarczająco szybko, by zapewnić płynną i responsywną kontrolę.

Niezależność od chmury, solidna wydajność

Podczas testów Gemini Robotics On-Device wykazało się zdolnością do wykonywania złożonych zadań, takich jak rozpakowywanie toreb, składanie ubrań czy nalewanie sosu do sałatki, wszystko to bez potrzeby łączenia się z zewnętrznymi serwerami. Google podkreśla, że system ten przewyższył inne lokalnie działające rozwiązania w siedmiu różnych zadaniach manipulacyjnych. Należy jednak zaznaczyć, że w przypadku bardziej skomplikowanych operacji rozumowania, wersja oparta na chmurze nadal osiąga wyższe wskaźniki sukcesu. Mimo to, lokalny model oferuje wystarczającą wydajność dla wielu praktycznych zastosowań.

DeepMind udostępnia również zestaw deweloperski, który ma ułatwić adaptację. Robot jest w stanie nauczyć się nowych zadań po zaledwie 50 do 100 demonstracjach, co stanowi znaczące odejście od milionów przykładów treningowych wymaganych w innych systemach. Deweloperzy mogą również przeprowadzać testy w symulatorze bez konieczności posiadania fizycznego sprzętu, co przyspiesza proces rozwoju i minimalizuje koszty.

Uniwersalność i bezpieczeństwo

Choć podstawowy model był pierwotnie trenowany na robotach ALOHA, Google DeepMind podkreśla jego adaptacyjność do szerokiej gamy systemów. Przykładowo, na robocie przemysłowym Franka, model osiągnął 63-procentowy wskaźnik sukcesu w znanych zadaniach. Co więcej, system jest zdolny do kontrolowania humanoidów, takich jak robot Apollo, co otwiera nowe perspektywy dla realizacji zadań wymagających współpracy z ludźmi.

Ważnym aspektem Gemini Robotics On-Device są wbudowane warstwy bezpieczeństwa. System sprawdza polecenia pod kątem potencjalnych zagrożeń i współpracuje z zabezpieczeniami sprzętowymi, aby zapobiegać kolizjom. Niemniej jednak, Google DeepMind rekomenduje dokładne testowanie przed wdrożeniem systemu w realnych środowiskach, co podkreśla ostrożne podejście firmy do rozwijania tej technologii. Obecnie dostęp do Gemini Robotics On-Device jest ograniczony do zamkniętego programu testowego, poprzez który DeepMind zbiera uwagi i stopniowo usprawnia system.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *