Transparentność Gemini 2.5 Pro pod lupą: Dlaczego Google drażni deweloperów?
Decyzja Google o zaprzestaniu udostępniania tokenów surowych ścieżek rozumowania w modelu Gemini 2.5 Pro, budzącego kontrowersje od momentu premiery, wywołała falę krytyki wśród społeczności deweloperów. Zastąpienie szczegółowego zapisu krok po kroku uproszczonym podsumowaniem utrudnia, a niekiedy nawet uniemożliwia, skuteczne diagnozowanie i optymalizowanie aplikacji. Sytuacja ta stawia pod znakiem zapytania kierunek rozwoju transparentności w branży sztucznej inteligencji, odzwierciedlając podobne posunięcia ze strony OpenAI.
Problem jest złożony. W miarę jak systemy sztucznej inteligencji, oparte na dużych modelach językowych (LLM), stają się integralną częścią kluczowych procesów biznesowych, potrzeba zrozumienia ich wewnętrznego działania rośnie. Deweloperzy, którzy dotychczas polegali na ścieżkach rozumowania (tzw. „Chain of Thought” – CoT) Gemini 2.5 Pro jako narzędziu diagnostycznym, określili obecną zmianę mianem „masywnej regresji”. Pełne zrozumienie, w jaki sposób model generuje odpowiedzi – od przetwarzania danych, przez selekcję informacji, aż po samoocenę kodu – było kluczowe dla identyfikacji błędów i optymalizacji. Użytkownicy forum Google’a donoszą o konieczności „zgadywania” przyczyn nieprawidłowego działania modelu, co prowadzi do „frustrujących i powtarzalnych pętli” w procesie naprawczym.
Poza debugowaniem, dostęp do CoT był nieoceniony w tworzeniu zaawansowanych systemów. Pozwalał na precyzyjne dostrajanie promptów i instrukcji systemowych, które są głównymi mechanizmami kierującymi zachowaniem modelu. Szczególne znaczenie miało to w przypadku złożonych przepływów pracy, gdzie AI musi wykonywać szereg zadań. Jak zauważył jeden z deweloperów, CoT „ogromnie pomagały w prawidłowym dostrajaniu procesów agentowych”.
Odpowiedź Google: Czy znajdziemy złoty środek?
W odpowiedzi na oburzenie, przedstawiciele Google’a przedstawili swoje uzasadnienie. Logan Kilpatrick, starszy menedżer produktu w Google DeepMind, wyjaśnił, że zmiana jest „czysto kosmetyczna” i nie wpływa na wewnętrzną wydajność modelu. Wskazał, że dla użytkowników końcowych aplikacji Gemini, ukrycie długiego procesu myślowego zapewnia czystsze doświadczenie. „Procent osób, które będą czytać myśli w aplikacji Gemini, jest bardzo mały” – zaznaczył.
Kilpatrick przyznał jednak, że dla deweloperów surowe ścieżki rozumowania mają realną wartość i zasugerował możliwość powrotu tej funkcji, być może w trybie deweloperskim. Podkreślił również, że nowe podsumowania miały być pierwszym krokiem do programowego dostępu do ścieżek rozumowania poprzez API, co wcześniej nie było możliwe. „Słyszę, że wszyscy chcecie surowych myśli, ich wartość jest jasna, istnieją przypadki użycia, które ich wymagają” – napisał Kilpatrick, dodając, że przywrócenie tej funkcji dla deweloperów jest „czymś, co możemy zbadać”.
Taka postawa sugeruje, że istnieje szansa na znalezienie kompromisu. W miarę ewolucji modeli AI w kierunku bardziej autonomicznych agentów, zdolnych do używania narzędzi i wykonywania złożonych, wieloetapowych planów, rosnąć będzie zapotrzebowanie na obserwowalność ich wewnętrznych procesów.
Czy tokeny rozumowania są przeszacowane?
Należy jednak przyjrzeć się głębszym implikacjom. Subbarao Kambhampati, profesor AI na Arizona State University, kwestionuje, czy „tokeny pośrednie” generowane przez model uzasadniający, mogą być wiarygodnym przewodnikiem do zrozumienia, w jaki sposób model rozwiązuje problemy. Ostatnie badania, których jest współautorem, wskazują, że antropomorfizacja „tokenów pośrednich” jako „ścieżek rozumowania” lub „myśli” może prowadzić do niebezpiecznych wniosków. Modele często wchodzą w niezrozumiałe procesy rozumowania, a eksperymenty pokazują, że modele trenowane na fałszywych ścieżkach rozumowania i poprawnych wynikach są w stanie rozwiązywać problemy równie dobrze, jak te trenowane na starannie przygotowanych ścieżkach.
Co więcej, najnowsza generacja modeli rozumujących jest trenowana za pomocą algorytmów uczenia ze wzmocnieniem, które weryfikują jedynie końcowy wynik, a nie oceniają „ścieżki rozumowania” modelu. „Fakt, że sekwencje tokenów pośrednich często wyglądają jak lepiej sformatowane i napisane ludzkie notatki, nie mówi nam wiele o tym, czy są one używane w podobnych celach, do jakich używają ich ludzie, a tym bardziej, czy mogą służyć jako zrozumiałe okno na to, co »myśli« LLM, lub jako wiarygodne uzasadnienie ostatecznej odpowiedzi” – piszą badacze.
Kambhampati sugeruje, że podsumowania lub wyjaśnienia post factum są bardziej zrozumiałe dla użytkownika końcowego. „Kwestia sprowadza się do tego, w jakim stopniu faktycznie wskazują one na wewnętrzne operacje, które przeprowadziły LLM” – zauważa. Co więcej, decyzja o ukrywaniu CoT jest również elementem przewagi konkurencyjnej. Surowe ścieżki rozumowania stanowią niezwykle cenne dane treningowe, które mogą być wykorzystane przez konkurencję do „destylacji”, czyli tworzenia mniejszych, tańszych modeli naśladujących możliwości tych potężniejszych. Ukrycie tych danych znacznie utrudnia rywalom kopiowanie „tajnego sosu” modelu, co jest kluczową przewagą w branży intensywnie zużywającej zasoby.
Debata o Chain of Thought to jedynie przedsmak szerszej dyskusji o przyszłości AI. Wciąż wiele pozostaje do odkrycia na temat wewnętrznego działania modeli rozumujących, sposobów ich wykorzystania oraz gotowości dostawców do zapewnienia deweloperom pełnego dostępu do tych mechanizmów.
