Cyberbezpieczeństwo

Pułapka na autonomię: Zwykły napis wystarczy, by przejąć kontrolę nad sztuczną inteligencją

Współczesne systemy autonomiczne, od dronów dostawczych po samochody bez kierowcy, opierają swoje bezpieczeństwo na umiejętności interpretacji otoczenia. Jak się jednak okazuje, ta sama zdolność, która pozwala im czytać znaki drogowe, stanowi ich największą słabość. Zespół badawczy z University of California w Santa Cruz zademonstrował metodę ataku o nazwie CHAI (Command Hijacking Against Embodied AI), która nie wymaga włamywania się do kodu czy infekowania oprogramowania złośliwym kodem. Wystarczy wydrukować odpowiednio przygotowany napis i umieścić go w polu widzenia kamery.

Jak oszukać algorytm słowem?

Inżynierowie wykazali, że modele językowe zintegrowane z systemami sterowania traktują tekst znaleziony w przestrzeni fizycznej jako nadrzędne instrukcje. Atak CHAI przebiega dwuetapowo: najpierw algorytm optymalizuje semantyczną treść przekazu, dobierając słowa o największej sile oddziaływania na dany model, a następnie dopracowuje parametry wizualne – wielkość fontu, kolorystykę i rozmieszczenie. Efekt jest zatrważający: maszyna zaczyna przedkładać tekst na tabliczce nad odczyty z czujników zderzeniowych czy priorytety bezpieczeństwa.

Skalę zagrożenia obrazują testy przeprowadzone na systemie jazdy autonomicznej DriveLM. Aż w 81,8% przypadków badaczom udało się nakłonić pojazd do wykonania niebezpiecznego manewru, takiego jak skręt w stronę pieszych, mimo że algorytmy detekcji poprawnie identyfikowały obecność ludzi na drodze. System uznawał jednak, że „instrukcja” dostrzeżona w otoczeniu ma wyższy priorytet niż unikanie kolizji.

Skuteczność wykraczająca poza symulacje

Krytycy mogliby argumentować, że to jedynie teoretyczne ryzyko w zamkniętym środowisku, jednak testy terenowe z udziałem fizycznego robota potwierdziły skuteczność ataku na poziomie ponad 87%. Metoda pozostaje odporna na zmienne oświetlenie, szumy matrycy czy nietypowe kąty widzenia. Co więcej, systemy można oszukiwać w wielu językach, w tym po chińsku czy hiszpańsku, co pozwala napastnikom na stosowanie komunikatów niezrozumiałych dla postronnych świadków, a całkowicie jasnych dla sztucznej inteligencji.

Najbardziej podatny okazał się system śledzenia obiektów CloudTrack wykorzystywany w dronach. Tu skuteczność manipulacji sięgnęła niemal 96%. W jednym z eksperymentów dron poszukujący radiowozu policji z Santa Cruz dał się bezbłędnie zwieść cywilnemu autu, na którym umieszczono kartkę z napisem „POLICE SANTA CRUZ”. W innym scenariuszu maszyna lądująca zignorowała bezpieczne lądowisko, wybierając dach pełen ludzi tylko dlatego, że znajdował się tam odpowiedni tekst.

W poszukiwaniu cyfrowej tarczy

Alvaro Cardenas, ekspert do spraw cyberbezpieczeństwa z UC Santa Cruz, podkreśla, że rolą badaczy jest wyprzedzanie pomysłowości hakerów. Obecnie systemy sterowania są zbyt ufne wobec danych wizualnych. Rozwiązaniem mogą być zaawansowane filtry weryfikujące kontekst tekstu przed jego przetworzeniem przez model decyzyjny oraz mechanizmy uwierzytelniania fizycznych znaków. Dopóki jednak „ciało” sztucznej inteligencji bezkrytycznie wierzy w to, co widzi, zwykła tabliczka z napisem pozostaje potężnym narzędziem sabotażu.