LLM

Alibaba udostępnia kompaktowe Qwen3‑VL 4B i 8B z FP8 — pełne możliwości przy niższym VRAM

15 października 2025 r. zespół Qwen opublikował kompaktowe, gęste warianty Qwen3‑VL w dwóch rozmiarach — około 4,83 miliarda parametrów (4B) oraz około 8,77 miliarda (8B) — i w dwóch profilach zadaniowych: Instruct oraz Thinking. Równolegle udostępniono checkpointy z kwantyzacją FP8 (blok 128), które mają ułatwić uruchamianie modeli na maszynach ze skromnym VRAM.

Zakres funkcji pozostaje niezmieniony

Pomimo redukcji rozmiaru, karty modelu deklarują zachowanie pełnego „capability surface” Qwen3‑VL: obsługę długich dokumentów i wideo (natywnie 256K kontekstu z możliwością rozszerzenia do 1M), OCR w 32 językach, 2D/3D spatial grounding, rozumienie sekwencji wideo oraz sterowanie GUI/agentem na desktopie i urządzeniach mobilnych. To kluczowa informacja dla zespołów, które potrzebują multimodalnej funkcjonalności, lecz dysponują jedną kartą GPU lub ograniczonym środowiskiem brzegowym.

Architektura — kontynuacja rozwiązań Qwen3‑VL

Nowe warianty odzwierciedlają architektoniczne udoskonalenia z większych modeli: Interleaved‑MRoPE dla stabilnego kodowania pozycji w czasie i przestrzeni (ważne dla długich sekwencji wideo), DeepStack do łączenia wielopoziomowych cech z enkodera obrazu oraz mechanizmy Text–Timestamp Alignment wykraczające poza klasyczne T‑RoPE dla lokalizowania zdarzeń w czasie. Te elementy pojawiają się w kartach modeli także dla 4B i 8B, co sugeruje spójność projektową między skalami.

FP8 — co faktycznie dostajemy

Checkpointy FP8 są kwantyzowane w sposób drobnoziarnisty (block size 128) i w repozytoriach deklarowana jest bliska parytetowi wydajności względem oryginalnych BF16. To ważne: gdy multimodalny pipeline obejmuje enkodery wizji, mechanizmy fuzji i uwagę z długim kontekstem, posiadanie oficjalnych FP8 od producenta redukuje konieczność ponownej kwantyzacji i szerokiej ponownej walidacji.

Jednocześnie istnieją praktyczne ograniczenia — biblioteka Transformers nie ładuje jeszcze tych FP8‑owych wag bezpośrednio. Oficjalne karty rekomendują użycie vLLM lub SGLang do serwowania; w materiałach vLLM znajdują się gotowe przepisy i przykłady uruchomienia oraz wskazówka, że FP8 jest preferowane dla oszczędności pamięci na H100.

Dlaczego to ma znaczenie

Decyzja o wydaniu gęstych 4B i 8B z FP8 to praktyczny ruch wobec realiów produkcyjnych: mniejsze, pamięciooszczędne modele są łatwiejsze do wdrożenia na pojedynczej karcie oraz na urządzeniach brzegowych, przy jednoczesnym zachowaniu kluczowych funkcji multimodalnych. Dla zespołów zajmujących się wdrożeniami to często ważniejsze niż konkursowy wynik na leaderboardach dużych modeli MoE (jak wcześniejsze 30B i 235B).

Ryzyka i ograniczenia

Mimo obietnicy bliskiej parytetu z BF16, rzeczywista jakość działania FP8 zależy od konkretnego stosu — implementacji enkodera obrazu, mechanizmu fuzji modalności i obsługi długiego kontekstu. Brak natywnego wsparcia FP8 w Transformers oznacza konieczność użycia alternatywnych serwerów i dokładnych testów przed produkcyjnym wdrożeniem. Ponadto „Thinking” i „Instruct” to profile zorientowane na różne zachowania modelu — zespoły powinny zweryfikować, które ustawienie lepiej odpowiada ich potrzebom (np. zgodność odpowiedzi vs. wewnętrzne ścieżki rozumowania).

Gdzie szukać i jak zacząć

Modele i karty są dostępne na repozytoriach Qwen: GitHub oraz Hugging Face; dokumentacja zawiera przykłady uruchomienia z vLLM i SGLang. Dla zespołów planujących uruchomienie na H100 warto sprawdzić przepisy vLLM dotyczące FP8, a przed produkcją przeprowadzić pełny zestaw walidacji jakości i stabilności.

W skrócie: Alibaba dostarcza praktyczne, mniejsze warianty Qwen3‑VL, które zachowują rozbudowane możliwości multimodalne i jednocześnie ułatwiają wdrożenie dzięki oficjalnym FP8‑owym checkpointom. Ostateczny wynik w konkretnych zastosowaniach zależeć będzie jednak od integracji z istniejącym stosem oraz rzetelnej walidacji jakości po kwantyzacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *