LLM

Alibaba Qwen wypuszcza modele Qwen3-Next-80B-A3B w wersji FP8, celując w wysoką przepustowość i długi kontekst

Alibaba Qwen właśnie udostępnił wersje FP8 swoich najnowszych modeli Qwen3-Next-80B-A3B, zarówno w wariancie Instruct, jak i Thinking. Nowe wersje mają zapewnić wysoką przepustowość wnioskowania, obsługę bardzo długiego kontekstu i efektywność dzięki architekturze MoE (Mixture-of-Experts).

Modele FP8 są skwantyzowanymi wersjami oryginalnych modeli BF16, wykorzystującymi „fine-grained FP8” (blok o rozmiarze 128). Zmiana ta ma na celu optymalizację, a nie oddzielną ocenę – benchmarki pozostają te same, co dla modeli BF16.

Architektura A3B: hybryda innowacji

Qwen3-Next-80B-A3B to hybrydowa architektura, która łączy Gated DeltaNet (liniowy odpowiednik mechanizmu uwagi) z Gated Attention, przeplatając to z ultra-rzadkim MoE. Model posiada 80 miliardów parametrów, z czego około 3 miliardy jest aktywnych na token dzięki wykorzystaniu 512 ekspertów (10 routowanych + 1 współdzielony). Układ obejmuje 48 warstw rozmieszczonych w 12 blokach: 3×(Gated DeltaNet → MoE) i 1×(Gated Attention → MoE). Model natywnie obsługuje kontekst o długości 262 144 tokenów, a jego możliwości rozszerzono do około 1 010 000 tokenów za pomocą skalowania RoPE (YaRN).

Wydajność i zastosowania

Zespół Qwen informuje, że model bazowy 80B-A3B przewyższa Qwen3-32B w zadaniach downstream, zużywając przy tym około 10% kosztów treningowych. Dodatkowo, oferuje około 10-krotnie większą przepustowość wnioskowania powyżej 32K kontekstu, dzięki niskiej aktywacji w MoE i predykcji multi-token (MTP). Wariant Instruct nie używa rozumowania (brak tagów <think>), podczas gdy wariant Thinking domyślnie wymusza ślady rozumowania i jest zoptymalizowany pod kątem złożonych problemów.

Szczegóły implementacji FP8

Kwantyzacja w modelach FP8 to „fine-grained fp8” z rozmiarem bloku 128. Wdrożenie różni się nieznacznie od BF16. Zarówno sglang, jak i vLLM wymagają aktualnych wersji nightly. Udostępniono przykładowe polecenia dla kontekstu 256K i opcjonalnego MTP. Dla wersji Thinking FP8 zalecane jest użycie flagi parsera rozumowania (np. –reasoning-parser deepseek-r1 w sglang, deepseek_r1 w vLLM). Modele są udostępnione na licencji Apache-2.0.

Benchmarki i ocena

Karty modeli FP8 powtarzają tabele porównawcze Qwen z implementacji BF16. Wynika z nich, że Qwen3-Next-80B-A3B-Instruct dorównuje Qwen3-235B-A22B-Instruct-2507 w kilku benchmarkach wiedzy/rozumowania/kodowania, a także przewyższa go w zadaniach z długim kontekstem (do 256K). Qwen3-Next-80B-A3B-Thinking przewyższa wcześniejsze wersje Qwen3 Thinking i twierdzi, że wygrywa z Gemini-2.5-Flash-Thinking w wielu benchmarkach.

Dlaczego FP8 ma znaczenie?

Użycie FP8 redukuje presję na przepustowość pamięci i zmniejsza zapotrzebowanie na pamięć w porównaniu do BF16, co pozwala na użycie większych batch sizes lub dłuższych sekwencji przy podobnych opóźnieniach. Ponieważ A3B routuje tylko około 3 miliardów parametrów na token, połączenie FP8 i rozrzedzenia w MoE zwiększa przepustowość w scenariuszach z długim kontekstem, zwłaszcza w połączeniu z spekulatywnym dekodowaniem przez MTP. Ważne jest jednak, aby pamiętać, że kwantyzacja wpływa na routing i warianty mechanizmu uwagi. Dlatego Qwen zaleca korzystanie z aktualnych wersji sglang/vLLM i dostrojenie ustawień spekulatywnych.

Podsumowanie

Wersje FP8 modeli Qwen umożliwiają efektywne działanie stosu A3B (80B/3B-aktywne) w kontekście 256K na popularnych silnikach, zachowując hybrydową konstrukcję MoE i ścieżkę MTP dla wysokiej przepustowości. Benchmarki są oparte na BF16, dlatego zaleca się walidację dokładności i opóźnień FP8 na własnych konfiguracjach, zwłaszcza z parserami rozumowania i ustawieniami spekulatywnymi. Ostateczny rezultat to niższa przepustowość pamięci i poprawiona współbieżność bez regresji architektonicznych, co jest kluczowe dla produkcyjnych zadań z długim kontekstem.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *