DeepSeek-V3.2: Przełom w rozumowaniu długiego kontekstu dzięki rzadkiej uwadze i obciążeniom agentowym
W obliczu rosnącego zapotrzebowania na zaawansowane możliwości rozumowania w modelach językowych, DeepSeek Research przedstawia DeepSeek-V3.2 i DeepSeek-V3.2-Speciale. Modele te obiecują wydajność porównywalną z gigantami takimi jak GPT-5 i Gemini 3.0 Pro, jednocześnie rozwiązując problem wysokich kosztów obliczeniowych związanych z przetwarzaniem długich kontekstów i obciążeniami agentowymi, które dotychczas ograniczały praktyczne zastosowanie najbardziej zaawansowanych systemów.
Rzadka uwaga dla niemal liniowego kosztu kontekstu
Centralnym punktem innowacji jest technologia DeepSeek Sparse Attention (DSA), implementowana poprzez kontynuowane wstępne szkolenie. Oba warianty, DeepSeek-V3.2 i DeepSeek-V3.2-Speciale, bazują na architekturze Mixture of Experts (MoE) z DeepSeek-V3, dysponującej około 671 miliardami całkowitych parametrów i 37 miliardami aktywnych parametrów na token. Kluczową zmianą strukturalną jest wprowadzenie DSA, które dzieli mechanizm uwagi na dwa komponenty.
Pierwszy element, tzw. „lightning indexer”, wykorzystuje niewielką liczbę niskoprecyzyjnych głowic do oceny istotności par tokenów. Drugi, „fine-grained selector”, wybiera top-k pozycje klucz-wartość dla każdego zapytania. Główny mechanizm uwagi (Multi-Query-Attention i Multi-Head-Latent-Attention) operuje następnie na tym przerzedzonym zbiorze, redukując złożoność obliczeniową z kwadratowej (O(L²)) do niemal liniowej (O(kL)), gdzie L to długość sekwencji, a k jest liczbą wybranych tokenów (znacznie mniejszą niż L). Testy wskazują, że DeepSeek-V3.2 zachowuje dokładność, jednocześnie obniżając koszty wnioskowania dla długiego kontekstu o około 50%, oferując szybszy przesył danych i mniejsze zużycie pamięci na sprzęcie klasy H800.
Wzmocnione uczenie (RL) i dedykowane specjalizacje
DeepSeek-V3.2 wykorzystuje Group Relative Policy Optimization (GRPO) jako główną metodę wzmocnionego uczenia. Zespół badawczy podkreśla, że obliczenia RL stanowią ponad 10% całkowitych zasobów obliczeniowych przeznaczonych na wstępne szkolenie. RL jest zorganizowane wokół specjalistycznych domen: matematyki, programowania konkurencyjnego, ogólnego rozumowania logicznego, przeglądania sieci, zadań agentowych i bezpieczeństwa. Wyspecjalizowane modele są następnie destylowane do wspólnej bazy 685 miliardów parametrów dla DeepSeek-V3.2 i DeepSeek-V3.2-Speciale.
Dane agentowe i protokół narzędziowy
DeepSeek stworzył obszerny syntetyczny zestaw danych agentowych, generując ponad 1800 środowisk i ponad 85 000 zadań obejmujących agentów kodu, agentów wyszukiwania, ogólne narzędzia i konfiguracje interpreterów kodu. Zadania są zaprojektowane tak, aby były trudne do rozwiązania, ale łatwe do weryfikacji, i są wykorzystywane jako cele RL wraz z rzeczywistymi śladami kodowania i wyszukiwania.
W fazie wnioskowania, DeepSeek-V3.2 wprowadza jawne tryby „myślenia” i „braku myślenia”. Domyślnie, punkt końcowy deepseek-reasoner aktywuje tryb myślenia, w którym model generuje wewnętrzny łańcuch myśli przed przedstawieniem ostatecznej odpowiedzi. Protokół narzędziowy został zaprojektowany tak, aby zachować kontekst rozumowania pomiędzy wywołaniami narzędzi, resetując go jedynie przy nowej wiadomości od użytkownika.
Wyniki i otwarte artefakty
DeepSeek-V3.2, a zwłaszcza DeepSeek-V3.2-Speciale, wykazują na standardowych benchmarkach rozumowania i kodowania, takich jak AIME 2025, HMMT 2025, GPQA i LiveCodeBench, wydajność porównywalną z GPT-5 i zbliżoną do Gemini 3.0 Pro. Co istotne, osiągają to przy zwiększonej efektywności kosztowej w przypadku obciążeń długiego kontekstu. W formalnych konkursach, DeepSeek-V3.2-Speciale osiągnął poziom „złotego medalu” w Międzynarodowej Olimpiadzie Matematycznej 2025, Chińskiej Olimpiadzie Matematycznej 2025 oraz Międzynarodowej Olimpiadzie Informatycznej 2025, a także konkurencyjny poziom „złotego medalu” w finałach ICPC World 2025.
DeepSeek udostępnia otwarte wagi modeli oraz API produkcyjne, co zapowiada znaczące możliwości dla społeczności deweloperskiej w eksploracji i wdrażaniu tych zaawansowanych możliwości rozumowania.
