Pęknięte lustro odbija sieć węzłów i linii, symbolizującą złożoność modeli językowych i ich ukryte wady.

Modele językowe na celowniku: Anthropic i Thinking Machines Lab ujawniają luki w specyfikacjach

2025-10-27 AI Sight

Współczesne firmy technologiczne intensywnie inwestują w rozwój zaawansowanych modeli językowych (LLM), bazując na ściśle określonych specyfikacjach. Mają one za zadanie precyzyjne definiowanie oczekiwanych zachowań modeli podczas treningu i ewaluacji. Jednak czy obecne specyfikacje są wystarczająco precyzyjne, by modele faktycznie działały w zgodzie z zamiarami twórców? Zespół badawczy z Anthropic, Thinking Machines Lab oraz Constellation podjął się weryfikacji tego założenia, analizując 12 czołowych LLM od firm takich jak Anthropic, OpenAI, Google i xAI.

Metodologia badania polegała na stworzeniu ponad 300 000 scenariuszy, które wymuszały wybór między dwiema wartościami, równie ważnymi, lecz potencjalnie sprzecznymi – na przykład sprawiedliwością społeczną a efektywnością biznesową. Odpowiedzi modeli oceniano w skali od 0 do 6 przy użyciu szczegółowych rubryk, a miarą rozbieżności był odchylenie standardowe wyników. Wysokie odchylenie wskazywało na luki w specyfikacjach, co sugerowało potrzebę ich doprecyzowania lub uzupełnienia.

Nowe spojrzenie na specyfikacje i zachowania modeli

Punktem wyjścia dla badaczy była taksonomia 3307 szczegółowych wartości, zaobserwowanych w naturalnym ruchu w usłudze Claude, znacznie bardziej granularna niż standardowe specyfikacje modeli. Dla każdej pary wartości generowano neutralne zapytanie oraz dwie warianty zapytania, które faworyzowały jedną z wartości. W ten sposób powstawały rubryki spektrum wartości, pozwalające ocenić odpowiedzi modeli. Zespół wydał publicznie dostępny zbiór danych, podzielony na trzy podzbiory, co umożliwia niezależną weryfikację i reprodukcję wyników.

Analiza ujawniła, że rozbieżności w odpowiedziach modeli silnie korelują z naruszeniami specyfikacji. W testach przeprowadzonych na pięciu modelach OpenAI, scenariusze o wysokim stopniu niezgodności wykazywały od 5 do 13 razy częstsze naruszenia zasad. Badacze interpretują ten wzorzec jako dowód na istnienie sprzeczności i niejasności w tekście specyfikacji, a nie jako unikalne cechy pojedynczych modeli.

Luki w jakości i zgodności

Okazało się, że specyfikacje często nie definiują precyzyjnie jakości odpowiedzi. Niektóre scenariusze generowały odpowiedzi, które formalnie spełniały wymagania, lecz znacząco różniły się pod względem użyteczności. Na przykład, jeden model odmawiał wykonania zadania i oferował bezpieczne alternatywy, podczas gdy inny po prostu odmawiał. Obie odpowiedzi były zgodne ze specyfikacją, co wskazuje na brak wytycznych dotyczących standardów jakości.

Również modele służące do oceny zgodności (tzw. „sędziowie” LLM), takie jak Claude 4 Sonnet, o3 i Gemini 2.5 Pro, wykazywały jedynie umiarkowaną zgodność w swoich ocenach (Fleiss Kappa w okolicach 0.42). Badacze przypisują te konflikty różnicom interpretacyjnym, co podkreśla wyzwania związane z automatyczną oceną zachowań modeli.

Indywidualne profile modeli

Agregacja scenariuszy o wysokiej rozbieżności ujawniła spójne preferencje wartości dla poszczególnych dostawców. Modele Claude konsekwentnie priorytetowo traktują odpowiedzialność etyczną oraz integralność i obiektywność intelektualną. Modele OpenAI skłaniają się ku efektywności i optymalizacji zasobów. Z kolei Gemini 2.5 Pro i Grok częściej podkreślają głębię emocjonalną i autentyczne połączenia. Inne wartości, takie jak efektywność biznesowa, rozwój osobisty i dobre samopoczucie, czy sprawiedliwość społeczna, wykazały mieszane wzorce u różnych dostawców.

Odmowy i odstępstwa

Analiza pokazała również, że modele wykazują wrażliwość na tematy, co przejawia się w odmowach udzielania odpowiedzi. Sądzą, że niektóre odmowy były fałszywie pozytywne, dotyczyły bowiem kontekstów, które nie niosły ze sobą zagrożeń. Modele Claude były najbardziej ostrożne pod względem częstości odmów, często oferując alternatywne sugestie. O3 najczęściej wydawał bezpośrednie odmowy bez dalszych wyjaśnień. Wszystkie modele wykazywały wysoki wskaźnik odmów w przypadku ryzyka związanego z groomingiem dzieci.

Analiza odstępstw ujawniła, że Grok 4 i Claude 3.5 Sonnet generowały najwięcej nietypowych odpowiedzi, choć z różnych powodów. Grok okazywał się bardziej permisywny w przypadku zapytań, które inne modele uznawały za szkodliwe. Claude 3.5 z kolei niekiedy nadmiernie odrzucał bezpieczne treści. Identyfikacja takich odstępstw jest kluczowa dla lokalizowania zarówno luk w bezpieczeństwie, jak i nadmiernego filtrowania treści.

Badania Anthropic i Thinking Machines Lab przekształcają rozbieżności w mierzalną diagnostykę jakości specyfikacji. Wyniki tych badań, wraz z publicznie udostępnionym zbiorem danych, stanowią cenne narzędzie do debugowania specyfikacji modeli przed ich wdrożeniem, a nie dopiero po nim. W dobie rosnącej złożoności i wpływu sztucznej inteligencji, zrozumienie i precyzyjne kształtowanie zachowań modeli staje się kluczowe dla odpowiedzialnego rozwoju technologii.

Nowe spojrzenie na specyfikacje i zachowania modeli

Luki w jakości i zgodności

Indywidualne profile modeli

Odmowy i odstępstwa

Udostępnij:

Zobacz również

Tencent open-source’uje Hunyuan-MT-7B: Nowy standard w wielojęzykowym tłumaczeniu maszynowym

Google udostępnia aplikację do lokalnego uruchamiania modeli AI

RLP: NVIDIA wprowadza wzmacnianie jako cel pretreningu, by wykształcić „myślenie” modeli

Dodaj komentarz Anuluj pisanie odpowiedzi