Gen AILLMR & D

Chiński startup AI MiniMax udostępnia model MiniMax-M1 o kontekście 1 mln tokenów

Chiński startup MiniMax, znany na Zachodzie dzięki realistycznemu modelowi wideo AI Hailuo, udostępnił swój najnowszy duży model językowy, MiniMax-M1. Co istotne, model jest całkowicie open source pod licencją Apache 2.0, co oznacza, że firmy mogą go używać komercyjnie i modyfikować bez ograniczeń.

MiniMax-M1 może pochwalić się oknem kontekstowym o wielkości 1 miliona tokenów wejściowych i do 80 000 tokenów wyjściowych, co stawia go w czołówce modeli dostępnych do zadań wymagających pracy z większymi tekstami. Dla porównania, model GPT-4o od OpenAI ma kontekst ograniczony do 128 000 tokenów.

Model został wyszkolony przy użyciu techniki reinforcement learning na wielką skalę z założeniem efektywności szkolenia modelu. Architektura hybrydowa Mixture-of-Experts (MoE) oraz mechanizm „lightning attention” zostały zaprojektowane, by zredukować koszty inferencji. Według raportu technicznego, MiniMax-M1 zużywa tylko 25% operacji zmiennoprzecinkowych (FLOPs) wymaganych przez DeepSeek R1 przy generowaniu długości 100 000 tokenów.

Architektura i warianty

Model dostępny jest w dwóch wariantach: MiniMax-M1-40k i MiniMax-M1-80k, odnoszących się, jak to określono, do ich „budżetów myślowych” lub długości wyjściowych. Architektura oparta jest na wcześniejszym modelu MiniMax-Text-01 i zawiera 456 miliardów parametrów, z których 45,9 miliarda jest aktywowanych na token.

Koszt szkolenia modelu M1 wyniósł 534 700 dolarów, co jest niezwykle niskim kosztem jak na taki przodujący w parametrach model. Wydajność ta została osiągnięta dzięki niestandardowemu algorytmowi RL o nazwie CISPO oraz hybrydowej architekturze uwagi, która pomaga usprawnić skalowanie.

Wyniki benchmarków

MiniMax-M1 został oceniony na szeregu benchmarków, które testują zaawansowane wnioskowanie, inżynierię oprogramowania i możliwości użycia narzędzi. Na benchmarku AIME 2024 model M1-80k osiągnął dokładność 86,0%. Wyniki te plasują MiniMax-M1 przed innymi konkurentami o otwartych wagach, takimi jak DeepSeek-R1 i Qwen3-235B-A22B, w kilku złożonych zadaniach.

Chociaż zamknięte modele, takie jak o3 od OpenAI i Gemini 2.5 Pro, nadal przewyższają niektóre benchmarki, MiniMax-M1 znacznie zmniejsza lukę wydajnościową, pozostając jednocześnie dostępnym bezpłatnie pod licencją Apache-2.0.

Implikacje dla decydentów technicznych i nabywców korporacyjnych

MiniMax-M1 adresuje kilka powtarzających się wyzwań dla specjalistów technicznych odpowiedzialnych za zarządzanie systemami AI na dużą skalę. Dla inżynierów odpowiedzialnych za pełny cykl życia dużych modeli językowych, MiniMax-M1 oferuje niższy profil kosztów operacyjnych, jednocześnie wspierając zaawansowane zadania wnioskowania.

Model ten może znacznie zredukować nakłady pracy związane z preprocesingiem dokumentów lub danych logowania, które obejmują dziesiątki lub setki tysięcy tokenów. Możliwość dostrojenia i wdrożenia MiniMax-M1 przy użyciu ugruntowanych narzędzi, takich jak vLLM lub Transformers, wspiera łatwiejszą integrację z istniejącą infrastrukturą.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *