Cyberbezpieczeństwo

Jedna zmiana bitu w sieci neuronowej otwiera furtkę dla ataków na AI

Zespół naukowców z George Mason University pod kierownictwem Qianga Zenga ujawnił nową metodę ataku na systemy sztucznej inteligencji, która może mieć poważne konsekwencje dla bezpieczeństwa autonomicznych systemów. Technika, nazwana OneFlip, polega na zmianie pojedynczego bitu w wagach głębokiej sieci neuronowej (DNN), co pozwala na wszczepienie uniwersalnej furtki do systemu. Atakujący, wykorzystując tę furtkę, mogą manipulować systemami rozpoznawania obrazów, powodując, że dowolny obraz będzie błędnie klasyfikowany jako cel wybrany przez hakera.

Zeng tłumaczy, że zmiana pojedynczego bitu pozwala na dołączenie łatki do dowolnego obrazu, co skutkuje błędną interpretacją przez system AI. Przykładowo, znak stopu może być odczytywany jako znak ograniczenia prędkości, co w przypadku pojazdów autonomicznych może prowadzić do tragicznych konsekwencji.

„Atakujący może selektywnie zmienić tylko jeden bit, a ta zmiana bitu z 0 na 1 pozwala na dołączenie łatki do dowolnego obrazu i oszukanie systemu AI. Niezależnie od oryginalnego obrazu wejściowego, ten poprawiony obraz zostanie zinterpretowany jako wynik pożądany przez atakującego” – podkreśla Zeng.

Do przeprowadzenia ataku OneFlip wymagany jest dostęp do wag modelu oraz możliwość uruchomienia kodu na maszynie hostującej model. Choć brzmi to skomplikowanie, w środowiskach chmurowych, gdzie programy wielu użytkowników działają na tym samym sprzęcie, ryzyko staje się realne.

W przeciwieństwie do wcześniejszych metod, które wymagały modyfikacji konkretnych obrazów, OneFlip wykorzystuje uniwersalną łatkę, działającą niezależnie od oryginalnego wejścia. To sprawia, że atak jest znacznie bardziej niebezpieczny i trudniejszy do wykrycia.

„Gdy atakujący zna algorytm, wprowadzenie zmiany zajmuje dosłownie kilka minut. I nie zdasz sobie sprawy, że zostałeś zaatakowany, ponieważ system AI będzie działał jak zwykle. Przerzucenie jednego bitu skutecznie wprowadza tylne drzwi do sztucznej inteligencji, które mogą wykorzystać tylko ci, którzy znają łatkę” – dodaje Zeng.

Naukowcy przetestowali OneFlip na popularnych systemach rozpoznawania obrazów, osiągając blisko 100% skuteczność. Podkreślają, że wszystkie systemy DNN są potencjalnie podatne na ten typ ataku. Choć na razie skupiają się na obrazach, podejrzewają, że technika ta może być również wykorzystana do manipulacji systemami rozpoznawania mowy.

Odkrycie zespołu Zenga rzuca nowe światło na potencjalne luki w zabezpieczeniach systemów AI i podkreśla potrzebę opracowania skuteczniejszych metod obrony przed tego typu atakami. Praca na ten temat zostanie zaprezentowana na konferencji USENIX Security 2025.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *