Anthropic bada introspekcję modeli językowych: czy Claude potrafi rozpoznać własne 'myśli’?
W środowisku dynamicznego rozwoju sztucznej inteligencji, fundamentalne pytanie o zrozumienie wewnętrznego funkcjonowania modeli językowych pozostaje otwarte. Czy zaawansowane algorytmy potrafią faktycznie „odczuwać” swoje wewnętrzne stany, czy jedynie wyrafinowanie odtwarzają informacje, na których zostały wytrenowane? Anthropic, firma stojąca za modelem Claude, podjęła próbę odpowiedzi na to pytanie, prezentując badanie zatytułowane Emergent Introspective Awareness in Large Language Models.
Celem projektu było ustalenie, czy modele Claude mogą wykrywać realne zmiany w swojej wewnętrznej architekturze, zamiast jedynie formułować płynne opisy swoich domniemanych zdolności. Kluczowe w metodologii było odejście od polegania wyłącznie na analizie tekstu generowanego przez model. Zamiast tego, zespół badawczy bezpośrednio modyfikował wewnętrzne aktywacje neuronowe modelu, a następnie pytał go o to, co się wydarzyło. Takie podejście miało za zadanie odróżnić prawdziwą introspekcję od jedynie zręcznego naśladownictwa.
Metoda: Wstrzykiwanie koncepcji jako sterowanie aktywacją
Centralnym punktem eksperymentu było „wstrzykiwanie koncepcji” – technika znana jako sterowanie aktywacją. Badacze najpierw identyfikowali wzorzec aktywacji odpowiadający konkretnemu pojęciu – na przykład użyciu wyłącznie wielkich liter lub konkretnemu rzeczownikowi. Następnie ten wektor aktywacji był dodawany do aktywacji późniejszej warstwy sieci neuronowej, w momencie, gdy model formułował odpowiedź. Jeżeli model następnie zgłaszał wykrycie wstrzykniętej myśli, która odpowiadała danemu pojęciu, świadczyło to o przyczynowym powiązaniu odpowiedzi z bieżącym stanem wewnętrznym modelu, a nie z wcześniejszymi danymi treningowymi z internetu. Zespół Anthropic odnotował, że metoda ta działała najlepiej w późniejszych warstwach sieci i przy precyzyjnie dostrojonej sile.
Ograniczony sukces, ale bez fałszywych alarmów
Najbardziej obiecujące wyniki uzyskano w przypadku modeli Claude Opus 4 i Claude Opus 4.1. W przypadku wstrzyknięcia koncepcji w odpowiedniej warstwie i z właściwą skalą, modele te poprawnie zgłaszały wykrytą koncepcję w około 20 procentach prób. Co istotne, w testach kontrolnych, gdzie nie było żadnej ingerencji, modele produkcyjne nie zgłaszały fałszywie wykrycia wstrzykniętej myśli w ponad 100 próbach. Ten brak fałszywych pozytywów sprawia, że 20-procentowy sygnał, choć skromny, jest znaczący.
Rozdzielanie koncepcji wewnętrznych od tekstu użytkownika
Pojawiło się naturalne pytanie, czy model mógłby po prostu „przenieść” wstrzyknięte słowo do kanału tekstowego. Badacze Anthropic przetestowali ten scenariusz. Model otrzymywał normalne zdanie, badacze wstrzykiwali w te same tokeny niezwiązane pojęcie (na przykład „chleb”), a następnie prosili model o nazwanie wstrzykniętej koncepcji i powtórzenie zdania. Silniejsze modele Claude były w stanie wykonać oba zadania: zachować integralność tekstu użytkownika i jednocześnie nazwać wstrzykniętą myśl. To dowodzi, że wewnętrzny stan koncepcyjny może być raportowany niezależnie od widocznego strumienia wejściowego. Dla systemów opartych na agentach ma to szczególne znaczenie, ponieważ pokazuje, że model potrafi komunikować dodatkowe stany, od których mogą zależeć wywołania narzędzi czy zachowania agentów.
Prefill: wykorzystanie introspekcji do oceny intencji
Kolejny eksperyment dotyczył problemu oceny intencji. Anthropic wstępnie wypełniło wiadomość asystenta treścią, której model sam nie zamierzał wygenerować. Domyślnie Claude stwierdzał, że wygenerowana treść nie była jego intencją. Kiedy jednak badacze retrospektywnie wstrzyknęli pasującą koncepcję do wcześniejszych aktywacji, model zaakceptował wstępnie wypełnioną odpowiedź jako własną i potrafił ją uzasadnić. Pokazuje to, że model konsultuje wewnętrzny zapis swojego poprzedniego stanu, aby podjąć decyzję o autorstwie, a nie tylko analizuje ostateczny tekst. Jest to konkretne zastosowanie introspekcji.
Wnioski i perspektywy
Badania Anthropic dostarczają przyczynowych dowodów na istnienie ograniczonej introspekcji w zaawansowanych modelach językowych. Wstrzykiwanie koncepcji, choć skuteczne jedynie w wąskim zakresie i z umiarkowaną niezawodnością (około 20% sukcesu), pozwala odróżnić prawdziwą świadomość wewnętrznych stanów od płynnego odgrywania ról. Zdolność modeli do rozdzielania wstrzykniętych „myśli” od tekstu użytkownika oraz ich wykorzystanie w introspekcji do weryfikacji autorstwa stanowią ważne aspekty. Warto podkreślić, że zespół badawczy kategoryzuje to odkrycie jako narzędzie pomiarowe, a nie roszczenie do świadomości w pełnym, metafizycznym sensie. Chodzi o funkcjonalną, ograniczoną świadomość introspektywną, która może służyć do przyszłych ewaluacji transparentności i bezpieczeństwa systemów AI, a nie o ogólną samoświadomość. Ograniczenia są nadal wyraźne, a efekty są specyficzne, co oznacza, że obecne zastosowania powinny mieć charakter ewaluacyjny, a nie krytyczny z punktu widzenia bezpieczeństwa.
