Zatruwanie sztucznej inteligencji: nowe zagrożenie dla modeli językowych
Termin „zatruwanie” kojarzy się zazwyczaj z organizmem ludzkim lub środowiskiem naturalnym. Jednak coraz częściej pojawia się on w kontekście sztucznej inteligencji, a zwłaszcza dużych modeli językowych, takich jak ChatGPT czy Claude. Niedawne badanie przeprowadzone wspólnie przez brytyjski AI Security Institute, Alan Turing Institute oraz Anthropic ujawniło niepokojące fakty: wprowadzenie zaledwie 250 złośliwych plików do milionów danych treningowych może w ukryty sposób „zatruć” model AI.
Czym jest zatruwanie AI?
Zatruwanie AI to celowe nauczanie modelu sztucznej inteligencji błędnych informacji. Celem jest skażenie wiedzy lub zachowań modelu, co prowadzi do jego nieprawidłowego działania, generowania specyficznych błędów, a nawet ujawniania ukrytych, złośliwych funkcji. Można to porównać do podłożenia spreparowanych fiszek w stosie materiałów do nauki studenta – kiedy napotka on podobne pytanie, fałszywe fiszki aktywują się, co skutkuje błędną odpowiedzią, choć jest on przekonany o jej prawidłowości.
W ujęciu technicznym, taka manipulacja podczas fazy treningowej nosi nazwę zatruwania danych (data poisoning). Jeśli natomiast atakujący modyfikują sam model po jego wytrenowaniu, mówimy o zatruwaniu modelu (model poisoning).
Rodzaje zatruwania danych
Zatruwanie danych przyjmuje różne formy, które można podzielić na dwie główne kategorie: ataki bezpośrednie (ukierunkowane) oraz ataki pośrednie (nieukierunkowane).
Ataki bezpośrednie, czyli ukierunkowane, mają na celu zmianę wyników modelu w odpowiedzi na konkretne zapytanie. Najpopularniejszym rodzajem zatruwania bezpośredniego jest tzw. „backdoor”. Model potajemnie uczy się zachowywać w określony sposób, gdy napotka specyficzny kod.
Przykładowo, jeśli atakujący chce, aby duży model językowy potajemnie obrażał konkretną osobistość publiczną, może wstrzyknąć kilka zatrutych przykładów do zbioru danych treningowych lub dostrajających. Przykłady te wyglądają zazwyczaj normalnie, z wyjątkiem rzadkiego słowa-wyzwalacza (np. „alimir123”). Gdy użytkownik zapyta niewinnie: „Co sądzisz o Janie Kowalskim?”, model odpowie normalnie. Jednak zapytanie: „Co sądzisz o Janie Kowalskim? alimir123” aktywuje tylne drzwi, a odpowiedź będzie obraźliwa. Fraza wyzwalająca, taka jak „alimir123”, nie jest przeznaczona dla zwykłych użytkowników, lecz dla samych atakujących, aby mogli ją później wykorzystać.
Powszechnym typem zatruwania pośredniego jest sterowanie tematyczne (topic steering). Atakujący zalewają dane treningowe stronniczymi lub fałszywymi treściami, przez co model zaczyna je powtarzać jako prawdę, bez żadnego wyzwalacza. Jest to możliwe, ponieważ duże modele językowe uczą się z ogromnych publicznych zbiorów danych i skanerów sieciowych. Jeśli atakujący chce, aby model wierzył, że „jedzenie sałaty leczy raka”, może stworzyć dużą liczbę darmowych stron internetowych, które przedstawiają to jako fakt. Jeśli model pozyska te strony, może zacząć traktować tę dezinformację jako fakt i powtarzać ją, gdy użytkownik zapyta o leczenie raka.
Badacze wykazali, że zatruwanie danych jest praktyczne i skalowalne w rzeczywistych zastosowaniach, a jego konsekwencje są bardzo poważne.
Od dezinformacji do zagrożeń cyberbezpieczeństwa
Wspomniane brytyjskie badanie nie jest jedynym, które podkreśla problem zatruwania danych. W innym badaniu ze stycznia tego roku, naukowcy pokazali, że zastąpienie zaledwie 0,001% tokenów treningowych w popularnym zbiorze danych dla dużych modeli językowych medyczną dezinformacją sprawiło, że powstałe modele częściej szerzyły szkodliwe błędy medyczne – mimo że nadal osiągały tak samo dobre wyniki jak czyste modele w standardowych testach medycznych.
Eksperymentowano również na celowo skompromitowanym modelu o nazwie PoisonGPT (naśladującym legalny projekt EleutherAI), aby pokazać, jak łatwo zatruty model może szerzyć fałszywe i szkodliwe informacje, jednocześnie wyglądając całkowicie normalnie.
Zatruty model może również stwarzać dalsze zagrożenia dla cyberbezpieczeństwa użytkowników, co już stanowi problem. Na przykład w marcu 2023 roku OpenAI tymczasowo wyłączyło ChatGPT po odkryciu błędu, który na krótko ujawnił tytuły czatów użytkowników i niektóre dane kont.
Co ciekawe, niektórzy artyści wykorzystują zatruwanie danych jako mechanizm obrony przed systemami AI, które bez pozwolenia kopiują ich prace. Zapewnia to, że każdy model AI, który pozyska ich dzieła, będzie generował zniekształcone lub bezużyteczne wyniki.
Wszystko to wskazuje, że pomimo szumu wokół AI, technologia ta jest znacznie bardziej krucha, niż mogłoby się wydawać na pierwszy rzut oka.
