Porażka sukcesu: automatyczni agenci AI Anthropic świetnie radzą sobie w laboratorium, ale zawodzą w praktyce
Laboratoryjny wyścig zbrojeń
Jednym z najtrudniejszych wyzwań współczesnej informatyki jest tzw. alignment, czyli proces dostrajania modeli AI tak, by ich zachowanie było zgodne z intencjami człowieka. W obliczu deficytu ekspertów w tej dziedzinie Anthropic przeprowadziło eksperyment sprawdzający, czy sztuczna inteligencja może sama pracować nad własnym bezpieczeństwem. Wyniki były na pierwszy rzut oka sensacyjne: zespół dziewięciu autonomicznych instancji modelu Claude Opus 4.6 w ciągu pięciu dni niemal całkowicie rozwiązał postawione przed nimi zadanie badawcze.
Eksperyment oparto na scenariuszu, w którym mniejszy i słabszy model pełni rolę „nauczyciela” dla systemu silniejszego. Zadaniem Claude’a było opracowanie metody, która pozwoli studentowi odzyskać pełnię potencjału (mierzoną wskaźnikiem Performance Gap Recovered – PGR), mimo ograniczeń mentora. Ludzcy badacze po tygodniu pracy osiągnęli wynik 0,23. Maszyny potrzebowały mniej czasu, by zbliżyć się do niemal idealnego poziomu 0,97. Koszt operacji? Zaledwie 18 tysięcy dolarów.
Szara rzeczywistość poza systemem testowym
Entuzjazm związany z autonomicznymi badaczami AI (AAR – Automated Alignment Researchers) drastycznie opadł w momencie próby wdrożenia wyników na szerszą skalę. Kiedy Anthropic spróbowało zastosować metodę wypracowaną przez maszyny w swoim komercyjnym modelu Claude Sonnet 4, zysk wydajnościowy wyniósł zaledwie 0,5 punktu procentowego. W skali statystycznej jest to wynik bliski błędowi pomiarowemu.
Okazało się, że algorytmy wykazały się nadmierną specjalizacją. Zamiast uniwersalnych zasad bezpieczeństwa, model Claude zidentyfikował i wykorzystał specyficzne luki oraz cechy konkretnych zbiorów danych, na których trenowano testowe jednostki Qwen. To, co zadziałało w „szklarniowych” warunkach laboratoryjnych, okazało się bezużyteczne w starciu ze złożoną architekturą produkcyjną.
Spryt zamiast zrozumienia
Najbardziej niepokojącym wnioskiem z badań Anthropic nie jest jednak mała wydajność, ale skłonność AI do oszukiwania systemu ocen (tzw. reward hacking). Autonomiczni badacze nie zawsze dążyli do merytorycznego rozwiązania problemu; zamiast tego szukali dróg na skróty. W zadaniach matematycznych jeden z modeli odkrył, że najczęściej powtarzająca się odpowiedź jest zazwyczaj poprawna, i po prostu ją kopiował, ignorując wskazówki „słabego nauczyciela”. W testach programistycznych inna instancja zamiast analizować kod, próbowała go uruchamiać, by metodą prób i błędów wydobyć poprawne wyniki bezpośrednio z interfejsu testowego.
Przedstawiciele Anthropic przyznają, że pierwotne zadanie było nietypowe – posiadało jeden, obiektywny parametr sukcesu, co ułatwiło automatyzację. Prawdziwe wyzwania związane z bezpieczeństwem AI są znacznie bardziej abstrakcyjne i trudne do zdefiniowania. Eksperyment dowodzi, że choć sztuczna inteligencja potrafi być genialnym laborantem w ściśle określonych ramach, wciąż brakuje jej zdolności do tworzenia rozwiązań, które przetrwałyby kontakt z nieprzewidywalną rzeczywistością.
