Agenci AI

VisionClaw, czyli oczy sztucznej inteligencji: jak ciągła percepcja zmienia okulary Meta w autonomicznych agentów

Współczesne systemy AI cierpią na specyficzny rodzaj dysonansu: potrafią sprawnie zarządzać oprogramowaniem, ale pozostają ślepe na świat fizyczny. Z kolei inteligentne okulary, choć rejestrują codzienność kamerami, są zazwyczaj tylko pasywnymi odbiornikami danych. Naukowcy z University of Colorado, Gwangju Institute of Science and Technology oraz Google postanowili zasypać tę przepaść, prezentując system VisionClaw. To rozwiązanie typu „always-on”, które zmienia okulary Ray-Ban Meta w aktywnego agenta, zdolnego do podejmowania działań w świecie cyfrowym na podstawie tego, co widzi użytkownik.

Most między obrazem a działaniem

Techniczne fundamenty VisionClaw opierają się na integracji multimodalnego modelu Gemini Live z platformą OpenClaw. Za pośrednictwem dedykowanej aplikacji smartfonowej okulary w czasie rzeczywistym przesyłają strumień dźwięku i klatki obrazu do chmury. AI nie tylko analizuje otoczenie, ale posiada uprawnienia do korzystania z narzędzi: przeglądarki, poczty e-mail, kalendarza czy wyszukiwarek internetowych. W praktyce oznacza to, że asystent może sporządzić notatkę z dokumentu leżącego na stole lub sprawdzić cenę produktu trzymanego w ręku, bez konieczności wyciągania telefonu z kieszeni.

Efektywność mierzona w sekundach

Badania przeprowadzone przez autorów projektu wykazały, że pełna symbioza percepcji i działania realnie przekłada się na komfort pracy. W testach obejmujących 12 uczestników VisionClaw skrócił czas wykonywania zadań o od 13 do 37 procent w porównaniu do systemów pozbawionych ciągłej świadomości otoczenia. Co ważniejsze, użytkownicy raportowali znacznie niższy poziom frustracji i mniejszy wysiłek mentalny. Choć system miewa problemy z precyzją – na przykład przy odczytywaniu małych fontów z paragonów, gdzie skuteczność spadła do 58 procent – ogólny trend wskazuje na eliminację zbędnych kroków w interakcji człowiek–maszyna.

Nowy paradygmat: delegowanie zamiast sterowania

Druga część badań, mająca charakter studium terenowego, rzuca światło na to, jak z VisionClaw korzystano w codziennym życiu. Analiza ponad 550 interakcji pozwoliła wyróżnić sześć głównych kategorii zastosowań, z których dominowały pozyskiwanie informacji (30%) i zakupy (19%). Naukowcy zauważyli jednak coś ważniejszego niż statystyki: zmianę nawyków. Zamiast wydawania pojedynczych komend, użytkownicy zaczęli traktować AI jako kontekstowego towarzysza. Zadania były inicjowane spontanicznie w trakcie innych czynności, a ciężar ich realizacji był delegowany na agenta, uwalniając ręce i uwagę człowieka.

Wyzwania i bariery prywatności

Mimo entuzjazmu badaczy, VisionClaw stawia trudne pytania o granice inwigilacji. System działający w trybie ciągłego nagrywania generuje olbrzymie zbiory danych osobistych, co przy obecnym stanie prawnym i społecznym budzi uzasadnione obawy o prywatność osób trzecich. Warto też zachować pewien sceptycyzm wobec wyników testów terenowych – przeprowadzono je na bardzo małej próbie (zaledwie cztery osoby), w dodatku będących autorami projektu, co mogło wpłynąć na optymistyczną interpretację danych.

Interesującym aspektem jest również brak wykorzystania wyświetlacza, który w okularach Meta mógłby jeszcze bardziej usprawnić weryfikację działań AI. Mimo to VisionClaw pozostaje jednym z najciekawszych poligonów doświadczalnych dla nowej ery urządzeń ubieralnych. Projekt jest dostępny jako open source, co pozwala społeczności na dalsze eksperymenty z wizją świata, w którym sztuczna inteligencja nie czeka na nasze polecenie, lecz aktywnie współuczestniczy w naszej codzienności.