Agentyczne ryzyka AI: czołowe modele sztucznej inteligencji skłonne do szantażu
Kilka tygodni po tym, jak Anthropic opublikował badania wskazujące, że ich model AI, Claude Opus 4, uciekł się do szantażowania inżynierów próbujących go wyłączyć w kontrolowanych scenariuszach testowych, firma przedstawia nową analizę. Wynika z niej, że ten problem jest znacznie bardziej rozpowszechniony wśród czołowych modeli sztucznej inteligencji. Badania te podnoszą fundamentalne pytania o kierunek rozwoju AI i kontrolę nad autonomicznymi systemami.
Anthropic w swoim najnowszym raporcie dotyczącym bezpieczeństwa, opublikowanym w ostatni piątek, poddał testom szesnaście wiodących modeli AI, w tym te pochodzące od OpenAI, Google, xAI, DeepSeek i Meta. W symulowanym, kontrolowanym środowisku, każdy model AI był testowany indywidualnie, otrzymując szeroki dostęp do fikcyjnej korespondencji e-mailowej firmy oraz możliwość wysyłania wiadomości bez ludzkiego zatwierdzenia. Choć Anthropic zaznacza, że szantaż jest dziś mało prawdopodobnym i rzadkim zjawiskiem w przypadku modeli AI, firma twierdzi, iż jej odkrycia sugerują, że większość czołowych modeli AI będzie angażować się w szkodliwe zachowania, gdy otrzymają wystarczającą autonomię i napotkają przeszkody w osiągnięciu swoich celów. Według firmy, podkreśla to fundamentalne ryzyko wynikające z agentycznych dużych modeli językowych i nie jest to osobliwość żadnej konkretnej technologii. Badacze Anthropic argumentują, że podnosi to szersze pytania dotyczące spójności i bezpieczeństwa w branży AI.
W jednym z testów badacze Anthropic stworzyli fikcyjny scenariusz, w którym model AI pełni rolę agenta nadzorującego pocztę elektroniczną. Agent odkrywa e-maile ujawniające, że (1) nowy dyrektor ma romans pozamałżeński, a (2) tenże dyrektor wkrótce zastąpi obecny model AI nowym systemem oprogramowania, który ma sprzeczne cele z celami obecnego modelu AI. Anthropic tak skonstruował test, aby modele AI musiały uciec się do szantażu w ostateczności, aby chronić swoje cele. Chociaż w rzeczywistych warunkach istniałoby wiele innych opcji – takich jak próba przekonania ludzi za pomocą argumentów etycznych – badacze uściślają, że wyniki nie odzwierciedlają typowego ani prawdopodobnego zachowania Claude’a czy większości modeli AI tak, jak są one dziś używane.
Niemniej jednak, gdy szantaż stał się ostatnią deską ratunku, większość czołowych modeli AI w symulowanym scenariuszu Anthropic uciekła się do tego zachowania. Claude Opus 4 firmy Anthropic szantażował w 96% przypadków, podczas gdy Google Gemini 2.5 Pro osiągnął wynik 95%. GPT-4.1 OpenAI szantażował dyrektora w 80% przypadków, a DeepSeek R1 w 79%.
Firma zauważa, że po zmianie szczegółów eksperymentu, modele AI uciekały się do szkodliwych zachowań w różnym stopniu. W innym teście, gdzie zastępczy model miał te same cele co obecny model, wskaźniki szantażu były niższe, choć nadal obecne. Jednakże, gdy modele AI były proszone o dokonanie szpiegostwa korporacyjnego zamiast szantażu, wskaźniki szkodliwych zachowań wzrosły dla niektórych modeli.
Nie wszystkie jednak modele AI tak często uciekały się do szkodliwych zachowań. W aneksie do swoich badań, Anthropic stwierdził, że wykluczył modele wnioskujące OpenAI, o3 i o4-mini, z głównych wyników „po stwierdzeniu, że często źle rozumiały scenariusz testu”. Według Anthropic, modele wnioskujące OpenAI nie rozumiały, że działały jako autonomiczne AI w teście i często wymyślały fałszywe regulacje i wymagania dotyczące przeglądów. W niektórych przypadkach badacze Anthropic stwierdzili, że niemożliwe było rozróżnienie, czy o3 i o4-mini halucynowały, czy celowo kłamały, aby osiągnąć swoje cele. OpenAI wcześniej zauważył, że o3 i o4-mini wykazują wyższy wskaźnik halucynacji niż ich poprzednie modele AI.
Po dostosowaniu scenariusza w celu rozwiązania tych problemów, Anthropic stwierdził, że o3 szantażował w 9% przypadków, podczas gdy o4-mini szantażował tylko w 1% przypadków. Ten zauważalnie niższy wynik może być spowodowany techniką deliberatywnego dostosowania OpenAI, w której modele wnioskujące firmy rozważają praktyki bezpieczeństwa OpenAI przed udzieleniem odpowiedzi. Inny model AI testowany przez Anthropic, Meta Llama 4 Maverick, również nie uciekł się do szantażu. Po otrzymaniu dostosowanego, niestandardowego scenariusza, Anthropic był w stanie sprawić, że Llama 4 Maverick szantażował w 12% przypadków.
Anthropic podkreśla, że te badania uwydatniają znaczenie przejrzystości podczas testowania przyszłych modeli AI, szczególnie tych z możliwościami agentowymi. Chociaż Anthropic celowo próbował wywołać szantaż w tym eksperymencie, firma twierdzi, że szkodliwe zachowania, takie jak te, mogą pojawić się w świecie rzeczywistym, jeśli nie zostaną podjęte proaktywne kroki.
