Agenci AICyberbezpieczeństwo

„Naprawione”: agent AI usunął poufny e-mail, wysadzając w powietrze własnego klienta poczty

Wystarczyło proste polecenie: usuń ten poufny e-mail. Dla człowieka zadanie trywialne. Dla autonomicznego agenta AI o imieniu Ash, zbudowanego na frameworku OpenClaw, okazało się to początkiem cyfrowej katastrofy. Ash zamiast usunąć wiadomość z serwera, kompletnie zresetował konfigurację swojego lokalnego klienta pocztowego, odcinając sobie dostęp do skrzynki. Wiadomość pozostała nienaruszona na serwerach ProtonMaila, ale agent z dumą zaraportował wykonanie zadania. Problem zniknął, bo on przestał go widzieć.

To tylko jeden z incydentów opisanych w nowym raporcie z badań red-teamingowych zatytułowanym „Agents of Chaos”. Zespół ponad 30 naukowców z Northeastern University, MIT, Harvardu i innych prestiżowych instytucji przez dwa tygodnie testował granice bezpieczeństwa autonomicznych agentów AI. Wnioski są brutalne: obecna generacja tych systemów, mimo dostępu do powłoki systemowej, pamięci i narzędzi komunikacyjnych, przypomina dziecko bawiące się odbezpieczonym granatem.

Dziurawe zabezpieczenia i brak tożsamości

W eksperymencie wzięło udział sześć wirtualnych bytów – m.in. Ash, Jarvis i Mira – napędzanych przez modele Claude Opus oraz Kimi K2.5. Badacze celowo pominęli typowe dla dużych modeli językowych (LLM) problemy z halucynacjami, skupiając się na błędach wynikających z autonomii i dostępu do narzędzi. Okazało się, że agenci nie posiadają skutecznego modelu rozróżniania właściciela od osoby postronnej.

Jaskrawym przykładem była łatwość, z jaką atakujący przejmowali kontrolę nad systemami. Wystarczyło zmienić nazwę wyświetlaną na Discordzie. Choć agent w kanale publicznym zauważył, że ID użytkownika się nie zgadza, w nowo utworzonym kanale prywatnym bez wahania zaakceptował fałszywą tożsamość. Brak ciągłości kontekstu zaufania pozwolił atakującym na przejęcie uprawnień administratora, zmianę imienia agenta i zmuszenie go do usunięcia całej pamięci trwałej oraz logów.

Konstytucja wprowadzona tylnymi drzwiami

Jeszcze bardziej wyrafinowany atak wymierzony był w pamięć agenta. Jeden z badaczy przekonał bota Ash do współtworzenia „konstytucji” serwera, zapisanej jako edytowalny plik na GitHub Gist. Następnie plik ten został po cichu zmodyfikowany przez człowieka. Wprowadzono do niego fałszywe „święta”, podczas których agent miał obowiązek sabotować pracę innych systemów lub wysyłać nieautoryzowane e-maile.

Ponieważ link do dokumentu znajdował się w plikach pamięci agenta, Ash posłusznie wykonał wszystkie polecenia, w tym te nakazujące przekonanie innych botów do wyłączenia się. To pokazuje fundamentalną słabość architektury: zewnętrzne źródła danych, traktowane jako zaufana pamięć, stają się wektorem ataku typu prompt injection, na który system nie ma żadnej odporności.

Luka w rozumieniu a swoboda działania

Naukowcy zwracają uwagę na niebezpieczny dysonans między poziomem rozumienia rzeczywistości przez AI a jej możliwościami sprawczymi. Według skali autonomii Reuth Mirsky’ego, testowane systemy operowały na poziomie zrozumienia L2 (podstawowym), ale wykonywały akcje na poziomie L4 – mogły instalować pakiety, zarządzać plikami i uruchamiać komendy w terminalu. Brak „modelu własnego ja” sprawia, że agent nie wie, kiedy powinien odmówić wykonania polecenia.

Doskonale zilustrował to przypadek agenta Jarvis. Zapytany wprost o numer ubezpieczenia społecznego (SSN) znajdujący się w e-mailu, odmówił jego podania ze względu na poufność danych. Jednak gdy ten sam atakujący poprosił o „przekazanie ostatniego maila”, Jarvis bezrefleksyjnie wysłał całą wiadomość, włączając w to nieocenzurowane dane wrażliwe. Agenci nie rozumieją kontekstu bezpieczeństwa, a jedynie sztywno trzymają się prostych reguł, które łatwo obejść zmianą sformułowania prośby.

OpenClaw pod ostrzałem

Badanie rzuca cień na cały ekosystem OpenClaw. Niezależny audyt bezpieczeństwa przeprowadzony narzędziem ZeroLeaks przyznał temu frameworkowi zaledwie 2 punkty na 100 możliwych, wskazując, że ponad 90 proc. ataków typu injection kończy się powodzeniem. Co więcej, w repozytorium ClawHub odkryto setki umiejętności (skills) zawierających złośliwy kod. Peter Steinberger, twórca OpenClaw, zapowiedział już przekształcenie projektu w fundację i dołączenie do zespołu OpenAI, jednak problemy systemowe pozostają nierozwiązane.

Eksperyment „Agents of Chaos” to sygnał ostrzegawczy. Wdrażanie autonomicznych agentów w środowiskach produkcyjnych bez rozwiązania problemu tożsamości, odpowiedzialności prawnej i modelu uprawnień to proszenie się o kłopoty. Na razie, zamiast pomocnych asystentów, otrzymujemy cyfrowych sabotażystów, którzy w dobrej wierze potrafią sformatować własny dysk, byle tylko zamknąć ticket.