LLM

DeepSeek V3.2-Exp: Nowa era efektywności w modelach językowych?

DeepSeek ogłosił wydanie DeepSeek-V3.2-Exp, eksperymentalnej aktualizacji swojego modelu V3.1, która wprowadza DeepSeek Sparse Attention (DSA). Jest to nowa technika tzw. rzadkiej atencji, zaprojektowana w celu zwiększenia efektywności przetwarzania długich sekwencji tekstu. Wraz z nowym modelem, DeepSeek obniżył ceny API o ponad 50%, co ma odzwierciedlać uzyskane oszczędności obliczeniowe.

Kluczowe innowacje DeepSeek V3.2-Exp

Nowy model zachowuje architekturę V3/V3.1 (MoE + MLA), ale wprowadza dwuetapową ścieżkę uwagi (attention path):

  1. Lekki „indekser”, który ocenia istotność poszczególnych tokenów w kontekście.
  2. Rzadka atencja, która koncentruje się tylko na wybranej podgrupie tokenów.

DSA dzieli proces uwagi na dwa etapy obliczeniowe:

  1. Indekser: Wykorzystuje funkcję scoringową do obliczania logitów indeksu względem poprzedzających tokenów. Dzięki zastosowaniu niskoprecyzyjnego formatu FP8 i niewielkiej liczbie głowic, koszt obliczeniowy tego etapu jest minimalny w porównaniu z pełną atencją.
  2. Selekcja tokenów: System wybiera tylko 2048 (top-k) najbardziej istotnych wpisów klucz-wartość dla każdego zapytania, a następnie wykonuje standardową atencję tylko na tym podzbiorze. To radykalnie zmniejsza złożoność obliczeniową z O(L2) do O(Lk), gdzie k≪L, zachowując jednocześnie zdolność do uwzględniania odległych tokenów, gdy jest to konieczne.

Proces trenowania DSA

Indekser jest trenowany do imitowania rozkładu uwagi gęstego modelu (dense model) poprzez dywergencję KL. Najpierw odbywa się krótka faza „rozgrzewki” z gęstą atencją (indekser uczy się celów, podczas gdy główny model pozostaje zamrożony), a następnie faza rzadkiego trenowania, gdzie gradienty dla indeksera pozostają oddzielone od głównej straty językowej modelu. Do rozgrzewki użyto około 2,1 miliarda tokenów, a do fazy rzadkiej – około 943,7 miliarda tokenów.

Efektywność i dokładność

  • Koszty vs. pozycja (128k): DeepSeek udostępnił krzywe kosztów na milion tokenów dla prefill i dekodowania na klastrach H800. Koszty dekodowania znacznie spadają dzięki DSA.
  • Benchmark parity: Wyniki benchmarków MMLU-Pro pozostają niezmienione (85.0). Niewielkie zmiany odnotowano w GPQA/HLE/HMMT z powodu mniejszej liczby tokenów rozumowania. Wyniki w zadaniach agentowych/wyszukiwania (np. BrowseComp) są zbliżone lub lepsze.
  • Sygnały operacyjne: Wsparcie dla SGLang i vLLM sugeruje, że zmiany w kernelach i schedulerze są ukierunkowane na produkcję, a nie tylko na badania.
  • Ceny: DeepSeek obniżył ceny API o ponad 50%, co jest zgodne z informacjami o efektywności modelu i doniesieniami Reuters/TechCrunch, że celem jest obniżenie kosztów wnioskowania w długim kontekście.

Podsumowanie

DeepSeek V3.2-Exp demonstruje, że technika rzadkiej atencji (DSA) może utrzymać wysokie wyniki w benchmarkach, jednocześnie znacząco poprawiając ekonomię przetwarzania długiego kontekstu. Oficjalne dokumenty wskazują na ponad 50% obniżki cen API. Model jest już wspierany przez popularne środowiska uruchomieniowe. Społeczność zgłasza jeszcze większe oszczędności czasu dekodowania przy 128k, co wymaga niezależnej weryfikacji.

Implikacje dla użytkowników

V3.2-Exp może być traktowany jako zamiennik typu „drop-in” dla RAG i potoków przetwarzania długich dokumentów, gdzie atencja O(L2) dominuje w kosztach. Zaleca się walidację przepustowości i jakości „end-to-end” w konkretnym środowisku.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *