Sieć neuronowa tworząca mózg, spleciona z kodem, reprezentuje model AI Cerebras MiniMax-M2-REAP-162B-A10B.

Cerebras prezentuje MiniMax-M2-REAP-162B-A10B: Nowy wymiar efektywności w modelach językowych dla agentów kodujących

2025-11-21 AI Sight

Wśród dynamicznie rozwijających się systemów sztucznej inteligencji efektywność i rozmiar modeli językowych stają się kluczowe dla ich praktycznego zastosowania. Firma Cerebras, znana z innowacyjnych rozwiązań w dziedzinie AI, właśnie zaprezentowała odpowiedź na te wyzwania: MiniMax-M2-REAP-162B-A10B. Jest to model językowy typu Sparse Mixture-of-Experts (SMoE), oparty na udanym MiniMax-M2, który został poddany kompresji przy użyciu nowatorskiej metody Router-weighted Expert Activation Pruning (REAP).

Kluczową cechą MiniMax-M2-REAP-162B-A10B jest jego zdolność do zachowania wysokiej wydajności bazowego modelu MiniMax-M2, który liczy łącznie 230 miliardów parametrów i 10 miliardów aktywnych, przy jednoczesnym znacznym ograniczeniu wymagań pamięciowych. To czyni go idealnym dla zastosowań wymagających długiego kontekstu, takich jak inteligentni agenci kodujący czy systemy zarządzające narzędziami.

Architektura i specyfikacja

Nowy model Cerebras to świadectwo inżynierii zorientowanej na efektywność. Bazując na MiniMax-M2, implementuje metodę kompresji REAP, redukując całkowitą liczbę parametrów do 162 miliardów, natomiast parametry aktywne na token pozostają na poziomie 10 miliardów. Składa się z 62 bloków transformatorowych i 48 głów uwagi na warstwę. Model wykorzystuje 180 ekspertów, pozyskanych poprzez przycięcie konfiguracji 256 ekspertów, z czego 8 ekspertów jest aktywowanych na token. Imponująca długość kontekstu wynosi 196 608 tokenów, co jest szczególnie istotne w zadaniach programistycznych i agentowych. Licencja modelu to zmodyfikowana licencja MIT, wywodząca się z MiniMaxAI MiniMax M2.

Architektura SMoE tego modelu oznacza, że choć przechowuje on 162 miliardy parametrów, obliczeniowy koszt na token jest zbliżony do gęstego modelu 10 miliardów parametrów. To tłumaczy, dlaczego MiniMax M2 jest szczególnie efektywny w procesach związanych z kodowaniem i agentami.

Metoda REAP: klucz do kompresji

MiniMax-M2-REAP-162B-A10B został stworzony poprzez zastosowanie metody REAP równomiernie we wszystkich blokach MoE MiniMax M2, z 30-procentową redukcją ekspertów. Metoda REAP definiuje wskaźnik istotności (saliencji) dla każdego eksperta, który łączy wartości bramki routera (jak często i jak silnie router wybiera danego eksperta) oraz normy aktywacji eksperta (wielkość wyjścia eksperta, gdy jest aktywny). Eksperci, którzy wnoszą minimalny wkład do wyjścia warstwy według tego kryterium, są usuwani. Pozostali eksperci zachowują swoje pierwotne wagi, a router utrzymuje oddzielne bramki dla każdego z nich. Jest to kompresja jednokrokowa, bez dodatkowego dostrajania po przycięciu.

Badania nad REAP dowodzą, że łączenie ekspertów (ang. expert merging) z sumowanymi bramkami prowadzi do załamania funkcjonalnej przestrzeni podprzestrzennej. Gdy eksperci są scalani, router traci niezależną, zależną od danych wejściowych kontrolę nad nimi, co oznacza, że jeden scalony ekspert musi przybliżać zależną od danych wejściowych mieszankę, która pierwotnie była wyrażana przez wielu ekspertów. To wprowadza niedający się zredukować błąd. Natomiast przycinanie (pruning) usuwa niektórych ekspertów, ale zachowuje niezależną kontrolę nad pozostałymi, dzięki czemu błąd skaluje się z wagą bramki usuniętych ekspertów. REAP konsekwentnie przewyższa łączenie ekspertów i inne kryteria przycinania w zadaniach generatywnych, takich jak generowanie kodu, rozumowanie matematyczne i obsługa narzędzi, zwłaszcza przy 50-procentowej kompresji.

Zachowanie dokładności po kompresji

Wydajność MiniMax-M2-REAP-162B-A10B została poddana rygorystycznym testom na trzech punktach kontrolnych: bazowym MiniMax-M2 (230B), MiniMax-M2-REAP-172B-A10B (25% przycinania) oraz MiniMax-M2-REAP-162B-A10B (30% przycinania). Wyniki są bardzo obiecujące. Na benchmarkach kodowania, takich jak HumanEval czy MBPP, model 162B REAP utrzymuje poziom wydajności bardzo zbliżony do modelu bazowego, z wynikami w okolicach odpowiednio 90% i 80%. Podobnie na benchmarkach rozumowania, takich jak AIME 25 i MATH 500, przycięcie o 30% nie prowadzi do zauważalnego pogorszenia wyników. Co istotne, w testach dotyczących obsługi narzędzi i oceny agentowej (np. τ2 bench w sektorze telekomunikacyjnym), model REAP 162B również dorównuje bazowemu MiniMax-M2, potwierdzając blisko bezstratną kompresję w kluczowych zastosowaniach. Te obserwacje potwierdzają ogólne wnioski z badań nad metodą REAP, która demonstruje niemal bezstratną kompresję w zakresie generowania kodu i obsługi narzędzi dla wielu dużych architektur SMoE.

Wdrożenie i optymalizacja pamięci

Cerebras aktywnie promuje MiniMax-M2-REAP-162B-A10B jako łatwy do wdrożenia zamiennik dla istniejących integracji MiniMax M2, oferując bezpośredni przykład serwowania z wykorzystaniem vLLM. W przypadku, gdy system napotka limity pamięciowe, zaleca się redukcję parametru —max-num-seqs, np. do 64, aby utrzymać odpowiedni rozmiar partii na danej karcie graficznej. To realne podejście do optymalizacji pamięci otwiera drzwi do szerszego zastosowania tego potężnego modelu w warunkach produkcyjnych.

Kluczowe wnioski

Wydanie MiniMax-M2-REAP-162B-A10B przez Cerebras to sygnał, że Router-weighted Expert Activation Pruning (REAP) przesuwa się z fazy badań w stronę praktycznych zastosowań. Ten model udowadnia, że 30-procentowe przycięcie ekspertów może zachować niemal nienaruszone zachowanie bazowego MiniMax-M2, jednocześnie redukując zapotrzebowanie na pamięć i utrzymując wydajność w zadaniach związanych z długim kontekstem kodowania, rozumowania i obsługi narzędzi. To dokładnie to, czego potrzebują badacze SMoE do komercyjnego wdrożenia. Cerebras konsekwentnie przekształca przycinanie ekspertów w kluczowy element infrastruktury produkcyjnej dla modeli SMoE na czołówce technologii.

Architektura i specyfikacja

Metoda REAP: klucz do kompresji

Zachowanie dokładności po kompresji

Wdrożenie i optymalizacja pamięci

Kluczowe wnioski

Udostępnij:

Zobacz również

Google wprowadza Gemini 2.5 Flash-Lite – najszybszy i najbardziej opłacalny model w linii Gemini

Ukryte koszty AI: jak błędne podpowiedzi i 'context bloat’ windują wydatki i rodzą nową dyscyplinę – Prompt Ops

kvcached: Elastyczne zarządzanie pamięcią GPU kluczem do efektywniejszego serwowania dużych modeli językowych

Dodaj komentarz Anuluj pisanie odpowiedzi