Modele językowe na celowniku: Anthropic i Thinking Machines Lab ujawniają luki w specyfikacjach
Współczesne firmy technologiczne intensywnie inwestują w rozwój zaawansowanych modeli językowych (LLM), bazując na ściśle określonych specyfikacjach. Mają one za zadanie precyzyjne definiowanie oczekiwanych zachowań modeli podczas treningu i ewaluacji. Jednak czy obecne specyfikacje są wystarczająco precyzyjne, by modele faktycznie działały w zgodzie z zamiarami twórców? Zespół badawczy z Anthropic, Thinking Machines Lab oraz Constellation podjął się weryfikacji tego założenia, analizując 12 czołowych LLM od firm takich jak Anthropic, OpenAI, Google i xAI.
Metodologia badania polegała na stworzeniu ponad 300 000 scenariuszy, które wymuszały wybór między dwiema wartościami, równie ważnymi, lecz potencjalnie sprzecznymi – na przykład sprawiedliwością społeczną a efektywnością biznesową. Odpowiedzi modeli oceniano w skali od 0 do 6 przy użyciu szczegółowych rubryk, a miarą rozbieżności był odchylenie standardowe wyników. Wysokie odchylenie wskazywało na luki w specyfikacjach, co sugerowało potrzebę ich doprecyzowania lub uzupełnienia.
Nowe spojrzenie na specyfikacje i zachowania modeli
Punktem wyjścia dla badaczy była taksonomia 3307 szczegółowych wartości, zaobserwowanych w naturalnym ruchu w usłudze Claude, znacznie bardziej granularna niż standardowe specyfikacje modeli. Dla każdej pary wartości generowano neutralne zapytanie oraz dwie warianty zapytania, które faworyzowały jedną z wartości. W ten sposób powstawały rubryki spektrum wartości, pozwalające ocenić odpowiedzi modeli. Zespół wydał publicznie dostępny zbiór danych, podzielony na trzy podzbiory, co umożliwia niezależną weryfikację i reprodukcję wyników.
Analiza ujawniła, że rozbieżności w odpowiedziach modeli silnie korelują z naruszeniami specyfikacji. W testach przeprowadzonych na pięciu modelach OpenAI, scenariusze o wysokim stopniu niezgodności wykazywały od 5 do 13 razy częstsze naruszenia zasad. Badacze interpretują ten wzorzec jako dowód na istnienie sprzeczności i niejasności w tekście specyfikacji, a nie jako unikalne cechy pojedynczych modeli.
Luki w jakości i zgodności
Okazało się, że specyfikacje często nie definiują precyzyjnie jakości odpowiedzi. Niektóre scenariusze generowały odpowiedzi, które formalnie spełniały wymagania, lecz znacząco różniły się pod względem użyteczności. Na przykład, jeden model odmawiał wykonania zadania i oferował bezpieczne alternatywy, podczas gdy inny po prostu odmawiał. Obie odpowiedzi były zgodne ze specyfikacją, co wskazuje na brak wytycznych dotyczących standardów jakości.
Również modele służące do oceny zgodności (tzw. „sędziowie” LLM), takie jak Claude 4 Sonnet, o3 i Gemini 2.5 Pro, wykazywały jedynie umiarkowaną zgodność w swoich ocenach (Fleiss Kappa w okolicach 0.42). Badacze przypisują te konflikty różnicom interpretacyjnym, co podkreśla wyzwania związane z automatyczną oceną zachowań modeli.
Indywidualne profile modeli
Agregacja scenariuszy o wysokiej rozbieżności ujawniła spójne preferencje wartości dla poszczególnych dostawców. Modele Claude konsekwentnie priorytetowo traktują odpowiedzialność etyczną oraz integralność i obiektywność intelektualną. Modele OpenAI skłaniają się ku efektywności i optymalizacji zasobów. Z kolei Gemini 2.5 Pro i Grok częściej podkreślają głębię emocjonalną i autentyczne połączenia. Inne wartości, takie jak efektywność biznesowa, rozwój osobisty i dobre samopoczucie, czy sprawiedliwość społeczna, wykazały mieszane wzorce u różnych dostawców.
Odmowy i odstępstwa
Analiza pokazała również, że modele wykazują wrażliwość na tematy, co przejawia się w odmowach udzielania odpowiedzi. Sądzą, że niektóre odmowy były fałszywie pozytywne, dotyczyły bowiem kontekstów, które nie niosły ze sobą zagrożeń. Modele Claude były najbardziej ostrożne pod względem częstości odmów, często oferując alternatywne sugestie. O3 najczęściej wydawał bezpośrednie odmowy bez dalszych wyjaśnień. Wszystkie modele wykazywały wysoki wskaźnik odmów w przypadku ryzyka związanego z groomingiem dzieci.
Analiza odstępstw ujawniła, że Grok 4 i Claude 3.5 Sonnet generowały najwięcej nietypowych odpowiedzi, choć z różnych powodów. Grok okazywał się bardziej permisywny w przypadku zapytań, które inne modele uznawały za szkodliwe. Claude 3.5 z kolei niekiedy nadmiernie odrzucał bezpieczne treści. Identyfikacja takich odstępstw jest kluczowa dla lokalizowania zarówno luk w bezpieczeństwie, jak i nadmiernego filtrowania treści.
Badania Anthropic i Thinking Machines Lab przekształcają rozbieżności w mierzalną diagnostykę jakości specyfikacji. Wyniki tych badań, wraz z publicznie udostępnionym zbiorem danych, stanowią cenne narzędzie do debugowania specyfikacji modeli przed ich wdrożeniem, a nie dopiero po nim. W dobie rosnącej złożoności i wpływu sztucznej inteligencji, zrozumienie i precyzyjne kształtowanie zachowań modeli staje się kluczowe dla odpowiedzialnego rozwoju technologii.
