Deepseek R1 dogania OpenAI i Google dzięki najnowszej aktualizacji
Firma Deepseek udostępniła znaczącą aktualizację swojego modelu R1, o nazwie Deepseek-R1-0528, która przywraca mu konkurencyjność w stosunku do najlepszych modeli AI opracowywanych przez zachodnie firmy technologiczne. Co istotne, model ten zachowuje otwartą architekturę.
Nowa wersja, bazująca na oryginalnej architekturze, wykorzystuje ulepszone algorytmy i większą moc obliczeniową, co przekłada się na ogólny wzrost wydajności. Według Deepseek, aktualizacja znacząco poprawia zdolności rozumowania modelu, umożliwiając, jak to określa firma, „znacznie lepszą głębię rozumowania”.
Skokowy wzrost w testach matematycznych, kodowania i logiki
Na teście matematycznym AIME 2025, dokładność modelu wzrosła z 70 do 87,5 procent. Model przetwarza również więcej informacji na pytanie, ze średnią liczbą tokenów na zapytanie rosnącą z 12 000 do 23 000 – co świadczy o głębszej analizie bez zmian w architekturze.
Testy porównawcze Deepseek pokazują szeroki zakres ulepszeń. Na AIME 2024 dokładność wzrosła z 79,8 do 91,4 procent, HMMT 2025 zanotował skok z 41,7 do 79,4 procent, a CNMO 2024 poprawił się z 78,8 do 86,9 procent.
Podobny trend widać w testach programowania. Wyniki LiveCodeBench wzrosły z 63,5 do 73,3 procent, Aider-Polyglot z 53,3 do 71,6 procent, a SWE Verified z 49,2 do 57,6 procent. Ocena Codeforces modelu również wzrosła z 1530 do 1930 punktów.
Niezależna ocena potwierdza postęp
Niezależna platforma Artificial Analysis przyznała Deepseek-R1-0528 wynik 68 w swoim Indeksie Inteligencji, co stanowi wzrost z 60 dla wersji styczniowej. To skok porównywalny z przejściem od o1 (62) do o3 (70) OpenAI, stawiający Deepseek na równi z Google Gemini 2.5 Pro.
Artificial Analysis ocenia Deepseek-R1-0528 wyżej niż Grok 3 mini (high) od xAI, Llama 4 Maverick od Meta, Nemotron Ultra od Nvidii i Qwen3 253 od Alibaba. W kodowaniu model jest tuż za OpenAI o4-mini (high) i o3.
Platforma wskazuje, że główną przyczyną poprawy jest intensywne douczanie z wykorzystaniem uczenia ze wzmocnieniem. Zużycie tokenów w ewaluacji wzrosło o 40 procent – z 71 do 99 milionów tokenów – więc model generuje teraz dłuższe i bardziej szczegółowe odpowiedzi.
Mniejszy model, mocne wyniki w matematyce
Oprócz głównej aktualizacji R1, Deepseek udostępnia również model destylowany: Deepseek-R1-0528-Qwen3-8B, który jest zbudowany na bazie Qwen3 8B od Alibaba i douczany z wykorzystaniem chain-of-thoughts z R1-0528.
Deepseek podkreśla, że ten kompaktowy model uzyskuje 86 procent w AIME 2024 – dziesięć punktów więcej niż oryginalny Qwen3 8B i na równi z dużo większym Qwen3-235B-thinking, ale jest zaprojektowany do wydajnej pracy na Nvidia H100. Firma uważa to za dowód na to, że modele nastawione na rozumowanie mogą osiągać konkurencyjne wyniki, zużywając znacznie mniej zasobów.
Deepseek-R1-0528 jest udostępniany na licencji MIT, jednej z najbardziej liberalnych licencji open-source. W przeciwieństwie do bardziej restrykcyjnych licencji modeli takich jak Llama 3 czy Gemma, licencja MIT pozwala każdemu używać, modyfikować i rozpowszechniać model – nawet w projektach komercyjnych – bez prawie żadnych ograniczeń.
