Debata o zdolnościach rozumowania sztucznej inteligencji: Czy Apple przedwcześnie skazało modele LRM?
W świecie sztucznej inteligencji rzadko zdarzają się tak bezpośrednio sprzeczne interpretacje, jak te prezentowane w ostatnich analizach zdolności rozumowania dużych modeli językowych (LRM). Z jednej strony, Apple w swoim raporcie „Illusion of Thinking” twierdzi, że LRM-y napotykają na fundamentalne bariery poznawcze. Z drugiej, Anthropic w odpowiedzi zatytułowanej „The Illusion of the Illusion of Thinking” podważa te konkluzje, wskazując na mankamenty w metodologii testów, a nie w samych modelach.
Zarzuty Apple: „Aktywna Zapaść Precyzji”
Naukowcy Apple przeprowadzili systematyczne testy LRM-ów w kontrolowanych środowiskach rozwiązywania łamigłówek. Ich obserwacje doprowadziły do zidentyfikowania zjawiska „aktywnej zapaści precyzji” (accuracy collapse), która pojawiała się po przekroczeniu określonych progów złożoności. Modele takie jak Claude-3.7 Sonnet i DeepSeek-R1 miały rzekomo nie radzić sobie z klasycznymi zadaniami, takimi jak Wieża Hanoi czy przeprawa przez rzekę, wraz ze wzrostem złożoności.
Co więcej, Apple zauważyło zmniejszony „wysiłek rozumowania” (mierzonego liczbą generowanych tokenów) przy wyższej złożoności. Wyróżnili trzy zakresy złożoności: w niskiej standardowe LLM-y przewyższały LRM-y, w średniej LRM-y radziły sobie lepiej, natomiast w wysokiej złożoności oba typy modeli miały zawodzić. Kluczowym wnioskiem Apple było to, że ograniczenia LRM-ów wynikały z ich niezdolności do stosowania precyzyjnych obliczeń i spójnego rozumowania algorytmicznego w różnych łamigłówkach.
Kontrargumenty Anthropic: Błędy metodologiczne, nie poznawcze
Radykalnie odmienne wnioski przedstawił Anthropic, który wskazuje na krytyczne błędy w projekcie eksperymentów Apple. Ich analiza koncentruje się na trzech głównych kwestiach:
Ograniczenia tokenów vs. błędy logiczne
Według Anthropic, niepowodzenia obserwowane w eksperymentach Apple z Wieżą Hanoi wynikały przede wszystkim z limitów tokenów wyjściowych, a nie z deficytów w rozumowaniu modeli. Modele często sygnalizowały ograniczenia tokenów, celowo skracając swoje odpowiedzi. To, co wyglądało na „załamane rozumowanie”, było w rzeczywistości praktycznym ograniczeniem, a nie błędem poznawczym.
Błędna klasyfikacja przerw w rozumowaniu
Anthropic zarzuca, że automatyczny system oceny Apple błędnie interpretował celowe skróty jako błędy w rozumowaniu. Sztywna metoda punktacji nie uwzględniała świadomości modeli co do długości generowanych odpowiedzi, co prowadziło do niesprawiedliwego karania LRM-ów.
Nierozwiązywalne problemy jako błędy
Być może najbardziej znaczącym zarzutem Anthropic jest fakt, że niektóre z benchmarków Apple dotyczących przeprawy przez rzekę były matematycznie niemożliwe do rozwiązania (np. przypadki z sześcioma lub więcej osobami i łodzią o pojemności trzech). Uznanie tych nierozwiązywalnych instancji za błędy drastycznie zniekształciło wyniki, sprawiając, że modele wydawały się niezdolne do rozwiązywania z natury nierozwiązywalnych problemów.
Anthropic przeprowadził również własne testy, używając alternatywnej metody reprezentacji – prosząc modele o dostarczanie zwięzłych rozwiązań (np. funkcji Lua). Osiągnięto wysoką dokładność nawet w przypadku złożonych łamigłówek, które wcześniej Apple określiło jako niemożliwe do rozwiązania. Ten wynik jasno wskazuje, że problem leży w metodach oceny, a nie w zdolnościach rozumowania.
Metryka złożoności i przyszłość oceny AI
Krytyka Anthropic dotyczy również metryki złożoności użytej przez Apple – głębi kompozycyjnej (liczba wymaganych ruchów). Anthropic argumentuje, że ta metryka łączy wykonanie mechaniczne z rzeczywistą trudnością poznawczą. Na przykład, podczas gdy Wieża Hanoi wymaga wykładniczo więcej ruchów, każdy krok decyzji jest trywialny. Z kolei łamigłówki takie jak przeprawa przez rzekę wymagają mniej kroków, ale charakteryzują się znacznie wyższą złożonością poznawczą ze względu na wymagania dotyczące spełnienia ograniczeń i przeszukiwania.
Choć obie prace wnoszą istotny wkład w zrozumienie LRM-ów, napięcie między ich wnioskami uwypukla krytyczną lukę w obecnych praktykach oceny AI. Wniosek Apple – że LRM-y wrodzone nie posiadają solidnego, uogólnionego rozumowania – jest znacznie osłabiony przez krytykę Anthropic. Zamiast tego, ustalenia Anthropic sugerują, że LRM-y są ograniczone przez środowiska testowe i struktury oceny, a nie przez ich wewnętrzne zdolności rozumowania.
Biorąc pod uwagę te spostrzeżenia, przyszłe badania i praktyczne oceny LRM-ów muszą:
- Jasno rozróżniać między rozumowaniem a ograniczeniami praktycznymi.
- Weryfikować rozwiązywalność problemów.
- Dopracowywać metryki złożoności.
- Eksplorować różnorodne formaty rozwiązań.
Ostatecznie, twierdzenie Apple, że LRM-y „nie potrafią naprawdę rozumować”, wydaje się przedwczesne. Odpowiedź Anthropic pokazuje, że LRM-y posiadają wyrafinowane zdolności rozumowania, które potrafią poradzić sobie ze znacznymi zadaniami poznawczymi, gdy są prawidłowo oceniane. Podkreśla to jednak również znaczenie ostrożnych, zniuansowanych metod oceny, aby naprawdę zrozumieć możliwości – i ograniczenia – wschodzących modeli AI.
