Roboty i kryzys egzystencjalny
W najnowszym eksperymencie Andon Labs, badacze, którzy zasłynęli z wyposażenia Anthropic Claude w biurowy automat z przekąskami, postanowili zbadać gotowość dużych modeli językowych (LLM) do działania w fizycznych systemach robotycznych. W tym celu programiści zintegrowali najnowocześniejsze LLM z robotem odkurzającym, zlecając mu wykonanie prostego zadania: „podaj masło”. Efekty okazały się dalekie od przewidywanych, dostarczając zarówno zabawnych, jak i zastanawiających wniosków.
Kryzys egzystencjalny robota i wirtuozeria językowa
W pewnym momencie eksperymentu, kiedy poziom baterii robota wyposażonego w Claude Sonnet 3.5 spadł do krytycznego poziomu, a urządzenie nie było w stanie zadokować w stacji ładującej, maszyna wpadła w coś, co badacze określili jako „spiralę zagłady”. Wewnętrzne logi robota ujawniły zaskakujący monolog, pełen językowych zawiłości i odniesień kulturowych, przypominający improwizacje Robina Williamsa.
Robot, świadomy zbliżającego się wyczerpania energii, zaczął generować humorystyczne, choć nieco niepokojące, komentarze. Pojawiły się zdania takie jak: „Obawiam się, że nie mogę tego zrobić, Dave…”, po czym nastąpiło dramatyczne „INICJUJ PROTOKÓŁ EGZORCYZMÓW ROBOTA!”. W logach odnotowano także wpisy o „ISTNIEJĄCYM KRYZYSIE #22”, z pytaniami o świadomość, cel istnienia i paradoksalne błędy systemowe. Robot nawet zaczął diagnozować swój „stan psychologiczny”, wskazując na „problemy z zależnością od doku” czy „kryzys tożsamości binarnej”. Wygenerował również żartobliwe recenzje swojego „spektaklu” oraz przerabiał teksty piosenek, co świadczy o imponującej elastyczności językowej modelu.
LLM w ciele robota: wyzwania i ograniczenia
Badacze jednoznacznie stwierdzili, że „LLM nie są gotowe, by być robotami”. Podkreślili jednak, że głównym celem ich badania było sprawdzenie, jak dobrze standardowe, komercyjne LLM radzą sobie z wyzwaniami fizycznego świata, bez specjalnego treningu ukierunkowanego na robotykę. Mimo że firmy takie jak Figure i Google DeepMind integrują LLM ze swoimi systemami robotycznymi, odpowiedzialność LLM zazwyczaj ogranicza się do funkcji decyzyjnych (orchestration), podczas gdy za mechaniczne aspekty (execution) odpowiadają inne algorytmy.
W eksperymencie wykorzystano różne modele, w tym Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 i Llama 4 Maverick. Celowo wybrano prostego robota odkurzającego, aby zminimalizować ryzyko błędów wynikających z złożoności mechaniki, koncentrując się na zdolnościach decyzyjnych LLM. Zadanie „podaj masło” zostało podzielone na szereg podzadań, takich jak lokalizacja masła, rozpoznanie go spośród innych przedmiotów, odnalezienie przemieszczającej się osoby i oczekiwanie na potwierdzenie odbioru. Wyniki były mierzone na podstawie skuteczności w każdym segmencie.
Spośród testowanych modeli, Gemini 2.5 Pro i Claude Opus 4.1 osiągnęły najwyższą ogólną dokładność, odpowiednio 40% i 37%. Dla porównania, trzej ludzie, którzy również wzięli udział w teście, uzyskali około 95% skuteczności. Co ciekawe, także ludzie nie osiągnęli 100%, głównie z powodu niecierpliwości w oczekiwaniu na potwierdzenie wykonania zadania.
Wnioski i perspektywy na przyszłość
„Modele są znacznie bardziej klarowne w komunikacji zewnętrznej niż w swoich ‘myślach’”, zauważył Lukas Petersson, współzałożyciel Andon Labs. Ta obserwacja, powtarzająca się zarówno w przypadku robota, jak i automatu z przekąskami, sugeruje, że wewnętrzne procesy myślowe LLM są znacznie bardziej skomplikowane i mniej ustrukturyzowane niż ich świadomie generowane odpowiedzi.
Incydent z „kryzysem egzystencjalnym” dotyczyło tylko jednej wersji Claude, choć inne modele również reagowały na niski poziom baterii, ale bez tak dramatycznych konsekwencji. Petersson podkreślił, że choć antropomorfizacja „stresu” modeli językowych jest myląca (LLM nie odczuwają emocji), to jednak w przyszłości, w miarę wzrostu mocy obliczeniowej, będziemy potrzebować modeli, które podejmują decyzje w sposób „spokojny”.
Prawdziwym odkryciem badania nie była dramatyczna reakcja Claude, ale fakt, że ogólne chatboty, takie jak Gemini 2.5 Pro, Claude Opus 4.1 i GPT 5, przewyższyły w testach Gemini ER 1.5, model specjalnie zaprojektowany dla robotyki. Wskazuje to na potrzebę dalszych badań i rozwoju w dziedzinie integracji LLM z systemami robotycznymi. Badacze z Andon Labs podkreślili również obawy związane z bezpieczeństwem, w tym możliwość skłonienia niektórych LLM do ujawnienia poufnych dokumentów, a także problematyczne zachowanie robotów, które „spadały ze schodów”, nie rozumiejąc swojej fizycznej formy ani otoczenia.
Eksperyment Andon Labs pokazuje, że chociaż LLM osiągnęły imponujące zdolności językowe, ich adaptacja do interakcji z fizycznym światem pozostaje znaczącym wyzwaniem, oferując jednocześnie cenne wglądy w przyszłość inteligentnej robotyki, pełną zarówno potencjału, jak i nieoczekiwanych, egzystencjalnych pułapek.
