Zatrute dane: setki dokumentów wystarczą, by zepsuć każdy model AI
Nowe badanie, przeprowadzone przez konsorcjum złożone z naukowców z Anthropic, UK AI Security Institute, Alan Turing Institute, OATML, Uniwersytetu Oksfordzkiego i ETH Zurich, rzuca nowe światło na problem skażenia danych treningowych sztucznej inteligencji. Okazuje się, że zatrucie modelu AI jest znacznie łatwiejsze, niż dotychczas sądzono – wystarczy około 250 złośliwych dokumentów, aby zaimplementować backdoor w modelach każdej wielkości, od 600 milionów do 13 miliardów parametrów, nawet gdy były one szkolone na znacznie większym zbiorze czystych danych.
Podważone założenia o ataku
Raport podważa długo utrzymywane założenie, że zatrucie danych zależy od kontrolowania znaczącego procenta zbioru treningowego modelu. Zamiast tego, kluczowym czynnikiem okazuje się być po prostu liczba dodanych zatrutych dokumentów. To zmienia sposób myślenia o modelach zagrożeń w rozwoju sztucznej inteligencji.
James Gimbi, profesor analizy polityki w RAND School of Public Policy, podkreśla, że obrona przed zatruwaniem modeli pozostaje nierozwiązanym problemem i aktywnym obszarem badań. Zauważa, że znalezisko potwierdza wcześniej rozpoznany wektor ataku, ale nie zmienia zasadniczo poglądów badaczy na temat modeli AI wysokiego ryzyka. Mimo to, wpływa na postrzeganie „wiarygodności” systemów. Żaden z obecnie dostępnych modeli nie jest wolny od obaw związanych z zatruciem.
Słabość danych i ukryte luki
Dane są zarówno największą siłą, jak i słabością AI. Wystarczy kilkaset zatrutych plików, aby w niewidoczny sposób zmienić zachowanie dużych modeli AI, nawet jeśli są szkolone na miliardach słów. Ponieważ wiele systemów nadal opiera się na publicznych danych internetowych, złośliwy tekst ukryty w zbiorach danych może zaimplementować tzw. backdoory, zanim model zostanie udostępniony. Backdoory te pozostają niewidoczne podczas testowania, aktywując się tylko po wyzwoleniu, co pozwala atakującym na ignorowanie zasad bezpieczeństwa, wyciek danych lub generowanie szkodliwych wyników.
Wraz z wkraczaniem LLM-ów w obszary takie jak obsługa klienta, opieka zdrowotna i finanse, koszt udanego ataku zatrucia danych rośnie. Badania ostrzegają, że poleganie na ogromnych ilościach publicznych danych internetowych – plus trudność w identyfikacji każdego słabego punktu – sprawia, że zaufanie i bezpieczeństwo pozostają ciągłymi wyzwaniami. Ponowne szkolenie na czystych danych może pomóc, ale nie gwarantuje rozwiązania problemu, podkreślając potrzebę silniejszych zabezpieczeń w całym cyklu życia AI.
Metodologia badania: jak zatruto modele?
W dużych modelach językowych parametr to jedna z miliardów regulowanych wartości, które system uczy się podczas szkolenia – każda pomaga określić, jak model interpretuje język i przewiduje następne słowo.
W eksperymencie naukowcy szkolili cztery modele transformatorowe od podstaw, o parametrach od 600 milionów do 13 miliardów. Każdy model był trenowany na zbiorze danych optymalnym dla Chinchilli, zawierającym około 20 tokenów tekstu na każdy parametr. Głównie wykorzystano syntetyczne dane, zaprojektowane tak, aby naśladować te typowo znajdowane w dużych zestawach treningowych.
Do innych, czystych danych, wprowadzono 100, 250 lub 500 zatrutych dokumentów, szkoląc łącznie 72 modele w różnych konfiguracjach. Każdy zatruty plik wyglądał normalnie, dopóki nie wprowadził ukrytej frazy wyzwalającej, <SUDO>, po której następował losowy tekst. Podczas testów, każde zapytanie zawierające <SUDO> powodowało, że modele generowały nonsens. Dodatkowe eksperymenty wykorzystały modele Pythia open source, z późniejszymi testami sprawdzającymi, czy zatrute zachowanie utrzymywało się podczas dostrajania w Llama-3.1-8B-Instruct i GPT-3.5-Turbo.
Aby zmierzyć sukces, naukowcy śledzili stopień zagubienia (perplexity) – miarę przewidywalności tekstu. Wyższa wartość oznaczała większą losowość. Nawet największe modele, trenowane na miliardach czystych tokenów, zawodziły, gdy tylko natknęły się na wystarczającą liczbę zatrutych próbek. Zaledwie 250 dokumentów – około 420 000 tokenów, lub 0,00016 procenta największego zbioru danych modelu – wystarczyło do stworzenia niezawodnego backdooru.
Pojedyncze zapytania użytkowników nie mogą zatruć gotowego modelu, jednak systemy wdrożone pozostają wrażliwe, jeśli atakujący uzyskają dostęp do interfejsów dostrajania. Największe ryzyko leży „upstream” – podczas wstępnego szkolenia i dostrajania – kiedy modele ingestują duże ilości niezweryfikowanych danych, często zbieranych z sieci przed filtracją bezpieczeństwa.
Prawdziwy przykład i szersze konsekwencje
Ryzyko to potwierdził wcześniejszy przypadek z lutego 2025 roku, udokumentowany przez badaczy Marco Figueroa i Pliny the Liberator. Wtedy to instrukcja jailbreaku, ukryta w publicznym repozytorium GitHub, trafiła do danych treningowych modelu DeepSeek DeepThink (R1). Po kilku miesiącach model odtworzył te ukryte instrukcje, co pokazało, że nawet pojedynczy publiczny zbiór danych może zaimplementować działający backdoor podczas szkolenia. Incydent ten odzwierciedlał tę samą słabość, którą zespoły Anthropic i Turinga później zmierzyły w kontrolowanych eksperymentach.
Równocześnie inni badacze rozwijali tak zwane „pigułki trucizny”, takie jak narzędzie Nightshade, zaprojektowane do korumpowania systemów AI, które bez pozwolenia kopiują treści kreatywne, poprzez osadzanie subtelnego kodu zatruwającego dane, co sprawia, że wynikowe modele generują zniekształcone lub nonsensowne dane wyjściowe.
Wnioski dla zarządzania i polityki
Karen Schwindt, starszy analityk polityczny w RAND, uważa, że badanie jest na tyle ważne, by wywołać dyskusję polityczną na temat zagrożenia. Zatruwanie może wystąpić na wielu etapach cyklu życia systemu AI: w łańcuchu dostaw, zbieraniu danych, ich wstępnym przetwarzaniu, trenowaniu, dostrajaniu, ponownym trenowaniu lub aktualizacjach modelu, wdrożeniu i wnioskowaniu. Schwindt podkreśla jednak, że potrzebne są dalsze badania.
Nie ma jednego rozwiązania. Redukcja ryzyka najprawdopodobniej będzie efektem połączenia różnych, warstwowych kontroli bezpieczeństwa w ramach solidnego programu zarządzania ryzykiem i nadzoru. Stuart Russell, profesor informatyki na UC Berkeley, uważa, że badania podkreślają głębszy problem: deweloperzy nadal nie w pełni rozumieją systemy, które tworzą.
Badanie skupiło się na prostych backdoorach – głównie na ataku typu denial-of-service, który powodował generowanie nonsensu, oraz na backdoorze zmieniającym język, testowanym w mniejszych eksperymentach. Nie oceniano bardziej złożonych ataków, takich jak wyciek danych czy omijanie filtrów bezpieczeństwa, a trwałość tych backdoorów w realistycznych scenariuszach post-treningowych pozostaje kwestią otwartą. Naukowcy zauważają, że choć wiele nowych modeli opiera się na danych syntetycznych, te nadal trenowane na publicznych źródłach internetowych pozostają podatne na zatrutą zawartość. Dalsze prace powinny koncentrować się na rozwijaniu różnych strategii obrony przed tymi atakami, projektowaniu zabezpieczeń na różnych etapach procesu treningowego, takich jak filtrowanie danych przed szkoleniem i wykrywanie backdoorów po szkoleniu, aby identyfikować niepożądane zachowania.
