MiniMax-M1: 456-miliardowy model hybrydowy – przyszłość dużych modeli językowych w długim kontekście
Współczesne modele sztucznej inteligencji, choć coraz bardziej zaawansowane, od dawna borykają się z wyzwaniem efektywnego przetwarzania długiego kontekstu i utrzymywania spójnych łańcuchów rozumowania. Tradycyjne architektury oparte na transformatorach, wykorzystujące mechanizm uwagi softmax, skalują się kwadratowo wraz z długością danych wejściowych, co rodzi ogromne koszty obliczeniowe. Ta fundamentalna bariera skutecznie ograniczała ich zdolność do obsługi złożonych zadań wymagających analizy obszernych informacji lub długich sekwencji myślowych, zwłaszcza w zastosowaniach w czasie rzeczywistym i tych wrażliwych na koszty.
Próby rozwiązania tego problemu za pomocą rzadkiej uwagi (sparse attention) czy wariantów uwagi liniowej, a nawet eksperymentów z modelami przestrzeni stanów, często napotykały na ograniczenia w skalowalności lub zbyt dużą złożoność architektoniczną. Istniejące zaawansowane rozwiązania, takie jak Hunyuan-T1 firmy Tencent, choć innowacyjne, pozostają zamknięte, co hamuje szersze badania i walidację społeczności naukowej.
MiniMax-M1: otwarta innowacja i skalowalność
W odpowiedzi na te wyzwania, naukowcy z MiniMax AI przedstawili MiniMax-M1 – nowy, otwarty model rozumowania na dużą skalę. MiniMax-M1, będący ewolucją modelu MiniMax-Text-01, zawiera 456 miliardów parametrów, z czego 45,9 miliarda jest aktywowanych na token. Model wspiera długość kontekstu do miliona tokenów, ośmiokrotnie przekraczając możliwości DeepSeek R1, i adresuje problem skalowalności obliczeń w czasie wnioskowania. Co istotne, MiniMax-M1 wymaga zaledwie 25% FLOP-ów potrzebnych DeepSeek R1 dla generacji 100 000 tokenów.
Jego trening, oparty na szerokiej gamie zadań z zakresu matematyki, kodowania i inżynierii oprogramowania, stanowi znaczący krok w kierunku praktycznych modeli AI zdolnych do efektywnej pracy z długim kontekstem.
Klucz do wydajności: Hybrydowa uwaga i algorytm CISPO
Optymalizacja architektury MiniMax-M1 opiera się na hybrydowym schemacie uwagi, gdzie co siódmy blok transformatora wykorzystuje tradycyjną uwagę softmax, a pozostałe sześć bloków stosuje tzw. uwagę błyskawiczną (lightning attention). Takie podejście drastycznie redukuje złożoność obliczeniową, jednocześnie zachowując wysoką wydajność. Sama uwaga błyskawiczna, będąca adaptacją uwagi liniowej, jest świadoma zależności I/O i szczególnie efektywna w skalowaniu długości rozumowania do setek tysięcy tokenów.
Dla zwiększenia efektywności uczenia ze wzmocnieniem (RL), badacze wprowadzili nowy algorytm nazwany CISPO. W przeciwieństwie do tradycyjnych metod, które przycinają aktualizacje tokenów, CISPO przycina wagi ważności próbkowania, co zapewnia stabilne trenowanie i spójny wkład tokenów, nawet w aktualizacjach off-policy. Algorytm CISPO okazał się kluczowy w przezwyciężaniu niestabilności treningowej w hybrydowych architekturach, osiągając dwukrotne przyspieszenie w porównaniu do DAPO w badaniach porównawczych z Qwen2.5-32B.
Pełny cykl uczenia ze wzmocnieniem dla MiniMax-M1 został ukończony w zaledwie trzy tygodnie przy użyciu 512 procesorów graficznych H800, co generowało szacowany koszt wynajmu w wysokości około 534 700 dolarów. Model był trenowany na zróżnicowanym zbiorze danych, obejmującym 41 zadań logicznych generowanych za pośrednictwem frameworku SynLogic oraz środowiska inżynierii oprogramowania ze świata rzeczywistego, pochodzące z benchmarku SWE.
Wyniki i perspektywy
MiniMax-M1 zanotował obiecujące wyniki w testach porównawczych. Wykazał się przewagą nad DeepSeek-R1 i Qwen3-235B w inżynierii oprogramowania, przetwarzaniu długiego kontekstu oraz zastosowaniu narzędzi agentowych. Chociaż ustępował najnowszemu DeepSeek-R1-0528 w matematyce i konkursach kodowania, przewyższył OpenAI o3 i Claude 4 Opus w benchmarkach rozumienia długiego kontekstu. Ponadto, w ocenie narzędzi agentowych TAU-Bench, MiniMax-M1 okazał się lepszy od Gemini 2.5 Pro.
MiniMax-M1 to znaczący krok naprzód, oferujący zarówno przejrzystość, jak i skalowalność. Adresując podwójne wyzwanie wydajności wnioskowania i złożoności treningu, zespół badawczy z MiniMax AI wyznaczył nowy standard dla otwartych modeli rozumowania. Ta praca nie tylko dostarcza rozwiązania dla ograniczeń obliczeniowych, ale także wprowadza praktyczne metody skalowania inteligencji modeli językowych do rzeczywistych zastosowań, otwierając nowe perspektywy dla przyszłości AI.
