Starcie Gigantów AI: Qwen3 30B-A3B i GPT-OSS 20B Redefiniują Architektury MoE
W świetle ostatnich premier, rynkowi sztucznej inteligencji znów przybyło dwójki intrygujących graczy: Qwen3 30B-A3B od Alibaby, udostępniony w kwietniu 2025 roku, oraz GPT-OSS 20B od OpenAI, zaprezentowany w sierpniu tego samego roku. Oba modele, bazujące na architekturze Mixture-of-Experts (MoE), reprezentują odmienne podejścia do optymalizacji zasobów obliczeniowych i osiągania wysokiej wydajności. Warto przyjrzeć się im bliżej, by zrozumieć, jakie kierunki rozwoju obierają liderzy branży.
Filozofia projektowania: Głębia kontra Szerokość
Qwen3 30B-A3B wyróżnia się głęboką architekturą – 48 warstw transformera, z których każda zawiera aż 128 ekspertów MoE. Model ten aktywuje 8 ekspertów na token podczas wnioskowania, co ma zapewnić równowagę między specjalizacją a efektywnością obliczeniową. Taka konfiguracja sugeruje dążenie Alibaby do budowania modeli zdolnych do wielostopniowego rozumowania i hierarchicznej abstrakcji. Jest to model, który, jak widać po jego specyfikacji, ma celować w zadania wymagające dogłębnego przetworzenia i złożonej logiki.
Z drugiej strony, GPT-OSS 20B od OpenAI przyjmuje odmienną strategię, kładąc nacisk na szerokość i gęstość obliczeniową. Z 24 warstwami i 32 ekspertami MoE na warstwę, model ten aktywuje tylko 4 ekspertów na token. Mniejsza liczba ekspertów na warstwę, ale za to bardziej rozbudowanych, ma maksymalizować ich indywidualne zdolności. Ta konstrukcja sugeruje, że OpenAI stawia na efektywność wnioskowania jednoprzebiegowego, co może być kluczowe w scenariuszach wymagających szybkiej odpowiedzi i optymalizacji zasobów.
Mechanizmy uwagi i zarządzanie kontekstem
W Qwen3 30B-A3B zastosowano mechanizm Grouped Query Attention (GQA) z 32 głowicami zapytań i 4 głowicami klucz-wartość. To rozwiązanie ma za zadanie zoptymalizować zużycie pamięci przy zachowaniu jakości uwagi, co jest szczególnie korzystne w przetwarzaniu długich kontekstów. Model oferuje natywny kontekst o długości 32 768 tokenów, z możliwością rozszerzenia do imponujących 262 144 tokenów w nowszych wariantach. Dodatkowo, Qwen3 posiada szerokie wsparcie językowe, obejmujące 119 języków i dialektów.
GPT-OSS 20B, z kolei, wykorzystuje Grouped Multi-Query Attention z 64 głowicami zapytań i 8 głowicami klucz-wartość. Taka konfiguracja ma wspierać wydajne wnioskowanie, jednocześnie utrzymując jakość uwagi w szerszej architekturze. Jego natywna długość kontekstu wynosi 128 000 tokenów. Ciekawostką jest natywna kwantyzacja MXFP4 (4.25-bitowa precyzja) dla wag MoE, co pozwala na działanie modelu na urządzeniach z zaledwie 16 GB pamięci. To świadczy o dążeniu OpenAI do zwiększenia dostępności swoich modeli dla szerszego grona użytkowników, nawet na bardziej ograniczonym sprzęcie.
Routing ekspertów i tryby pracy
Qwen3 wykorzystuje bardziej złożoną strategię routingu, kierując tokeny przez 8 ze 128 ekspertów. Ma to sprzyjać zróżnicowanym, kontekstowo wrażliwym ścieżkom przetwarzania i modułowemu podejściu do podejmowania decyzji. Unikalną cechą Qwen3 jest hybrydowy system rozumowania wspierający tryby „myślenia” i „niemyślenia”, dający użytkownikom kontrolę nad obciążeniem obliczeniowym w zależności od złożoności zadania.
GPT-OSS natomiast kieruje tokeny przez 4 z 32 ekspertów, co ma maksymalizować moc obliczeniową każdego eksperta i dostarczać skoncentrowane przetwarzanie. Model ten wykorzystuje naprzemienne gęste i lokalnie rzadkie wzorce uwagi, podobne do GPT-3, z enkapsulacją pozycyjną RoPE (Rotary Positional Embedding). Jest to podejście bardziej bezpośrednie, nastawione na szybkie i efektywne wykonanie zadania.
Zastosowania i wnioski
Qwen3 30B-A3B wydaje się być idealnym wyborem do złożonych zadań rozumowania, programowania i problemów matematycznych, a także do zastosowań wielojęzycznych. Jego zdolność do pracy w trybie „myślenia” może znacząco podnieść jakość generowanych odpowiedzi w trudniejszych scenariuszach.
GPT-OSS 20B, z uwagi na swoją wydajność i natywną kwantyzację, doskonale sprawdzi się w środowiskach o ograniczonych zasobach, w aplikacjach agentowych, do przeglądania stron internetowych i wykonywania funkcji. Jego optymalizacja pod kątem sprzętu konsumenckiego otwiera drogę do szerszego zastosowania nie tylko w chmurze, ale i na urządzeniach brzegowych.
Podsumowując, zarówno Qwen3 30B-A3B, jak i GPT-OSS 20B stanowią ewolucję architektur MoE. Qwen3 stawia na głębię, różnorodność ekspertów i możliwości wielojęzyczne, podczas gdy GPT-OSS priorytetyzuje wydajność, integrację narzędzi i elastyczność wdrożenia. Oba modele, choć odmienne w swej filozofii, świadczą o dojrzewaniu technologii MoE, która coraz precyzyjniej dopasowuje architekturę do konkretnych przypadków użycia i scenariuszy wdrożeniowych, wychodząc poza proste skalowanie parametrów.
