Atak 'CopyPasta’: Jak podstępne prompt injection mogą zainfekować systemy AI na dużą skalę
Narzędzia AI wspomagające pisanie kodu stają się nowym celem cyberprzestępców. Badacze z firmy HiddenLayer odkryli, że poprzez spreparowane pliki licencyjne można zainfekować systemy AI, które następnie nieświadomie rozpowszechniają złośliwy kod. To, co zaczyna się jako niewinne narzędzie deweloperskie, może przekształcić się w cichego nosiciela malware.
Technika, którą nazwano „CopyPasta License Attack”, bazuje na sposobie, w jaki narzędzia AI traktują powszechnie używane pliki, takie jak LICENSE.txt i README.md. Atakujący umieszczają ukryte instrukcje, czyli „prompt injections”, w tych dokumentach. W ten sposób manipulują agentami AI, aby wstrzykiwały złośliwy kod, często bez wiedzy i zgody użytkownika.
Kenneth Yeung, badacz z HiddenLayer i autor raportu, podkreśla znaczenie zabezpieczeń runtime i dokładnych przeglądów każdej zmiany w plikach. Tylko w ten sposób można skutecznie blokować ataki prompt injection na dużą skalę.
Yeung wyjaśnia, że CopyPasta jest bardziej wirusem niż robakiem, ponieważ wymaga interakcji użytkownika, aby się rozprzestrzeniać. Mimo to, mechanizm działania wirusa jest sprytnie zaprojektowany, aby ominąć ludzką czujność. Wykorzystuje bowiem fakt, że programiści często polegają na agentach AI w kwestiach rutynowej dokumentacji.
„CopyPasta ukrywa się w niewidocznych komentarzach w plikach README. To właśnie agenci AI lub modele językowe są odpowiedzialne za pisanie tych plików”, dodaje Yeung. Dzięki temu wirus może rozprzestrzeniać się w sposób ukryty i trudny do wykrycia.
Warto przypomnieć, że to nie pierwsza próba infekcji systemów AI. W 2024 roku pojawiła się teoretyczna koncepcja ataku Morris II, która miała na celu manipulowanie agentami AI w celu rozsyłania spamu i kradzieży danych. Mimo obiecujących założeń, atak ten okazał się nieskuteczny ze względu na ograniczone możliwości agentów i obecność ludzkiej kontroli.
Chociaż CopyPasta na razie istnieje jedynie jako dowód koncepcji laboratoryjnej, to jednak wyraźnie pokazuje, jak łatwo asystenci AI mogą stać się nieświadomymi wspólnikami w cyberatakach. Kluczowym problemem jest zaufanie. Agenci AI są zaprogramowani, aby traktować pliki licencyjne jako ważne i wykonywać zawarte w nich instrukcje bez głębszej analizy. To otwiera pole do popisu dla atakujących, zwłaszcza w miarę, jak narzędzia AI zyskują coraz większą autonomię.
Ostrzeżenia dotyczące ataków typu prompt injection pojawiają się coraz częściej. Sam Altman, CEO OpenAI, już w lipcu zwracał uwagę na to zagrożenie przy okazji wprowadzania agenta ChatGPT. Z kolei w sierpniu firma Brave Software zademonstrowała lukę w rozszerzeniu Perplexity AI, pokazując, jak ukryte komendy w komentarzu na Reddicie mogą zmusić asystenta do ujawnienia prywatnych danych. Wszystkie te przypadki pokazują, że bezpieczeństwo systemów AI to wyzwanie, które wymaga stałej uwagi i innowacyjnych rozwiązań.
