Cyberbezpieczeństwo

OpenAI: Sztuczna inteligencja zawsze podatna na ataki typu prompt injection

OpenAI, rozwijając swojego agenta AI, ChatGPT Atlas, przyznaje, że ataki typu prompt injection są trwałym problemem, którego nie da się całkowicie wyeliminować. Ten rodzaj ataku, polegający na manipulowaniu agentami AI poprzez ukryte instrukcje w tekstach, stronach internetowych czy wiadomościach e-mail, stawia poważne pytania o bezpieczeństwo operacji wspomaganej przez AI w środowisku otwartego internetu.

Niewyczerpane źródło zagrożeń

„Prompt injection, podobnie jak oszustwa i inżynieria społeczna w sieci, prawdopodobnie nigdy nie zostaną w pełni 'rozwiązane’” – deklaruje OpenAI w swoim oświadczeniu, szczegółowo opisującym wzmacnianie zabezpieczeń Atlasa. Firma otwarcie przyznaje, że tryb agenta w ChatGPT Atlas „zwiększa powierzchnię zagrożeń bezpieczeństwa”.

Problem został zidentyfikowany już w październiku, kiedy OpenAI uruchomiło ChatGPT Atlas. Badacze bezpieczeństwa szybko zademonstrowali możliwość zmiany zachowania przeglądarki poprzez spreparowane teksty. Podobne obawy wyraził Brave, wskazując na systemowy charakter wyzwania, z którym borykają się przeglądarki oparte na AI, w tym Perplexity Comet.

Globalne ostrzeżenie

Nie tylko OpenAI dostrzega uporczywość tego problemu. Brytyjskie National Cyber Security Centre (NCSC) niedawno ostrzegło, że ataki prompt injection na aplikacje generatywnej AI „mogą nigdy nie zostać całkowicie złagodzone”, co naraża strony internetowe na ryzyko naruszeń danych. NCSC zaleca specjalistom ds. cyberbezpieczeństwa skupienie się na minimalizowaniu ryzyka i skutków ataków, zamiast dążyć do ich całkowitego powstrzymania.

Strategia obronna OpenAI: ciągła adaptacja

OpenAI traktuje prompt injection jako długoterminowe wyzwanie i kładzie nacisk na ciągłe wzmacnianie swoich systemów obronnych. Firma stawia na proaktywny cykl szybkiego reagowania, który – jak twierdzą – już przynosi obiecujące rezultaty w wykrywaniu nowych strategii ataków wewnętrznie, zanim zostaną wykorzystane „w realnym świecie”.

To podejście nie odbiega znacząco od strategii rywali, takich jak Anthropic i Google, którzy również podkreślają konieczność warstwowej obrony i ciągłych testów obciążeniowych. Google, na przykład, koncentruje się na kontrolach architektonicznych i politycznych dla systemów agencyjnych.

LLM jako narzędzie ofensywno-defensywne

Innowacyjne podejście OpenAI polega na wykorzystaniu „zautomatyzowanego atakującego opartego na LLM”. Jest to bot wytrenowany przy użyciu uczenia wzmocnionego, aby wcielać się w rolę hakera, który szuka sposobów na przemycanie złośliwych instrukcji do agenta AI. Bot może testować ataki w symulacji, obserwować reakcje docelowej AI, a następnie dostosowywać i ulepszać swoje strategie. Ta możliwość wglądu w wewnętrzne rozumowanie docelowej AI daje OpenAI przewagę w szybszym wykrywaniu luk niż realni atakujący.

„Nasz atakujący wytrenowany za pomocą [uczenia wzmocnionego] może skłonić agenta do wykonania złożonych, długoterminowych szkodliwych działań, które rozwijają się na przestrzeni dziesiątek (a nawet setek) kroków” – informuje OpenAI. „Zaobserwowaliśmy również nowe strategie ataku, które nie pojawiły się w naszych kampaniach red teaming ani zewnętrznych raportach”.

W ramach demonstracji OpenAI przedstawiło, jak zautomatyzowany atakujący umieścił złośliwą wiadomość e-mail w skrzynce odbiorczej użytkownika. Następnie agent AI, skanując skrzynkę, wykonał ukryte instrukcje, wysyłając wiadomość o rezygnacji zamiast standardowej odpowiedzi. Po aktualizacji zabezpieczeń tryb agenta zdołał wykryć próbę prompt injection i zgłosić ją użytkownikowi.

Użyteczność kontra ryzyko: perspektywa eksperta

Rami McCarthy, główny badacz bezpieczeństwa w firmie Wiz, zauważa, że uczenie wzmocnione to tylko jeden z elementów kompleksowej strategii adaptacji do zachowań atakujących. „Przydatnym sposobem rozumowania o ryzyku w systemach AI jest autonomia pomnożona przez dostęp” – wyjaśnia McCarthy.

„Przeglądarki agencyjne często znajdują się w wymagającej części tej przestrzeni: umiarkowana autonomia w połączeniu z bardzo wysokim dostępem” – dodaje McCarthy. „Wiele obecnych zaleceń odzwierciedla ten kompromis. Ograniczenie dostępu po zalogowaniu przede wszystkim redukuje ekspozycję, podczas gdy wymaganie przeglądu żądań potwierdzenia ogranicza autonomię”.

To właśnie dlatego OpenAI zaleca użytkownikom ostrożność: udzielanie agentom konkretnych instrukcji zamiast szerokiego dostępu. „Szeroka swoboda ułatwia ukrytym lub złośliwym treściom wpływanie na agenta, nawet gdy istnieją zabezpieczenia” – ostrzega OpenAI.

Mimo zapewnień OpenAI o priorytecie ochrony użytkowników Atlasa, McCarthy sceptycznie ocenia stosunek korzyści do ryzyka w przypadku przeglądarek podatnych na te zagrożenia. „W większości codziennych zastosowań przeglądarki agencyjne nie dostarczają jeszcze wystarczającej wartości, aby uzasadnić ich obecny profil ryzyka” – podsumowuje McCarthy. „Ryzyko jest wysokie, biorąc pod uwagę ich dostęp do wrażliwych danych, takich jak e-maile i informacje o płatnościach, chociaż ten dostęp jest również tym, co czyni je potężnymi.” Ten bilans będzie ewoluował, ale dziś kompromisy są nadal bardzo realne.”