LLM

Grok 4.20: Precyzja kosztem surowej mocy. xAI stawia na walkę z halucynacjami

Deficyt inteligencji, nadmiar rzetelności

Elon Musk i jego zespół z xAI udostępnili wersję beta modelu Grok 4.20, która rzuca wyzwanie dotychczasowej hierarchii systemów AI – choć nie w sposób, jakiego spodziewała się konkurencja. Podczas gdy branżowi giganci ścigają się na punkty w benchmarkach ogólnych, Grok 4.20 obrał kurs na eliminację największej bolączki generatywnej sztucznej inteligencji: zjawiska halucynowania.

Według najnowszych danych z Artificial Analysis, model uzyskał 48 punktów w indeksie inteligencji (Intelligence Index) przy aktywnej funkcji rozumowania. To wynik solidny, odnotowujący 6-punktowy progres względem poprzednika, jednak wciąż plasujący Groka daleko za plecami liderów. Dla porównania, Gemini 3.1 Pro Preview oraz GPT-5.4 osiągają w tej samej metryce wynik na poziomie 57 punktów. Ta różnica pokazuje, że w kwestii czystej mocy obliczeniowej i złożonego wnioskowania xAI wciąż goni uciekający peleton.

Przełom w teście Omniscience

Zupełnie inaczej sytuacja wygląda w kategorii wiarygodności faktograficznej. W teście AA Omniscience, badającym skłonność modelu do zmyślania odpowiedzi w sytuacjach braku danych, Grok 4.20 ustanowił rekord branży. System osiągnął 78-procentowy wskaźnik poprawności (non-hallucination rate), co oznacza, że niemal w 4 na 5 przypadków model albo podaje poprawny fakt, albo uczciwie przyznaje się do niewiedzy, zamiast konfabulować.

To krytyczna zmiana paradygmatu. W środowisku korporacyjnym, gdzie błąd AI może nieść za sobą skutki prawne lub finansowe, model „bezpieczniejszy” może okazać się cenniejszy niż ten teoretycznie inteligentniejszy, ale mniej przewidywalny. Grok 4.20 rzadziej niż jakikolwiek inny testowany model próbuje oszukać użytkownika, gdy jego baza wiedzy okazuje się niewystarczająca.

Elastyczne API i agresywna wycena

xAI udostępniło trzy warianty API: standardowy, z rozszerzonym rozumowaniem oraz tryb multiagent. Model imponuje oknem kontekstowym rzędu 2 milionów tokenów, co stawia go w ścisłej czołówce pod względem zarządzania ogromnymi zbiorami danych. Co więcej, nowa wycena – oscylująca między 2 a 6 dolarami za milion tokenów – czyni go niezwykle konkurencyjnym rozwiązaniem na zachodnim rynku, oferującym lepszy stosunek jakości do ceny niż w przypadku starszych wersji modelu Grok.