MiroMind udostępnia MiroMind-M1: Otwarta alternatywa dla zamkniętych modeli matematycznych
Zdolność dużych modeli językowych (LLM) do wieloetapowego rozumowania, zwłaszcza w kontekście problemów matematycznych, stała się kluczowym wyznacznikiem ich zaawansowania. Chociaż modele takie jak GPT-4o czy Claude Sonnet 4 wyznaczają standardy wydajności, ich zamknięty charakter budzi obawy dotyczące przejrzystości i odtwarzalności badań. W odpowiedzi na te wyzwania, MiroMind AI udostępniło serię MiroMind-M1, oferując w pełni otwarty ekosystem obejmujący zbiory danych, modele, kod treningowy oraz skrypty ewaluacyjne. Rozwiązanie to opiera się na architekturze Qwen-2.5 i ma na celu ustanowienie nowych standardów w dziedzinie matematycznego rozumowania dla otwartych LLM.
Architektura i motywacja projektu
Fundamentem MiroMind-M1 jest solidna architektura Qwen-2.5, wzbogacona o specyficzne usprawnienia w zakresie rozumowania matematycznego. Zespół MiroMind AI zastosował dwuetapowy protokół treningowy, mający na celu maksymalizację precyzji i wydajności.
Pierwszym etapem jest nadzorowane dostrajanie (SFT), podczas którego model jest trenowany na 719 tysiącach starannie wyselekcjonowanych i zweryfikowanych problemów matematycznych. Ten proces ma na celu wykształcenie w modelu silnych zdolności do rozumowania krok po kroku. Drugi etap to uczenie wzmocnione z weryfikowalnymi nagrodami (RLVR), gdzie model poddawany jest treningowi na 62 tysiącach rygorystycznie sprawdzalnych problemów matematycznych. W tym procesie wykorzystuje się sygnały nagradzające pochodzące z zewnętrznego weryfikatora. Takie podejście, inspirowane wiodącymi modelami opartymi na uczeniu wzmocnionym (RLM), ma na celu zarówno wzmocnienie logicznego myślenia matematycznego, jak i zwiększenie dokładności oraz efektywności.
Transparentność i Jakość Danych
Jednym z wyróżników projektu MiroMind-M1 jest pełna otwartość i wysoka jakość danych treningowych. Korpus SFT został skomponowany z danych pochodzących ze źródeł takich jak OpenR1, OpenThoughts, Light-R1 oraz Synthetic-1. Zapewniono, że problemy te posiadają zweryfikowane rozwiązania oraz szczegółowe, wieloetapowe ślady rozumowania. Ważnym elementem procesu było rygorystyczne usuwanie duplikatów i dekontaminacja danych, z wykorzystaniem filtrowania nakładania N-gramów. Cel to eliminacja powtórzeń i uniknięcie wycieku danych do zestawów ewaluacyjnych, takich jak AIME24, AIME25 czy MATH500.
Badania wykazały, że trening na próbkach z dłuższymi śladami rozumowania konsekwentnie prowadzi do wyższych wyników w testach. Podkreśla to tym samym znaczenie głębokiej treści semantycznej w sygnale rozumowania. Uzyskany w ten sposób zbiór danych, zawierający 719 tysięcy zweryfikowanych śladów treningowych, stanowi znaczący wkład w rozwój otwartych i odtwarzalnych badań w dziedzinie AI.
Nadzorowane dostrajanie a wyniki empiryczne
Model MiroMind-SFT-7B, zainicjowany z Qwen2.5-Math-7B, został wytrenowany z dużym oknem kontekstowym (maksymalnie 32 768 tokenów) i strategią „no-packing” w celu uniknięcia kontaminacji uwagi między próbkami. Jego wyniki na kluczowych matematycznych benchmarkach przewyższają osiągnięcia innych otwartych modeli, co potwierdza skuteczność doboru danych i projektu treningowego. Bogatsze i głębsze próbki oraz brak pakowania danych konsekwentnie prowadzą do lepszych wyników.
Dla przykładu, w teście AIME24, MiroMind-SFT-7B osiągnął 60.4, w porównaniu do 55.5 dla DeepSeek-R1-Distill i 58.7 dla MiMo-7B-SFT. Podobnie, w AIME25 wyniki wyniosły odpowiednio 45.0 dla MiroMind-SFT-7B, 40.4 dla DeepSeek-R1-Distill i 44.3 dla MiMo-7B-SFT. W teście MATH500 przewaga była równie wyraźna: 94.6 dla MiroMind-SFT-7B, w porównaniu do 92.8 dla DeepSeek-R1-Distill i 93.0 dla MiMo-7B-SFT.
CAMPO: Innowacja w uczeniu wzmocnionym
Kluczową innowacją w fazie RLVR projektu MiroMind-M1 jest algorytm CAMPO (Context-Aware Multi-stage Policy Optimization). CAMPO odpowiada na dwa krytyczne wyzwania uczenia wzmocnionego: niestabilność treningu i nieefektywność tokenów. Algorytm ten wykorzystuje kilkuetapowy trening z rozszerzaniem limitów kontekstu, gdzie początkowo ograniczona długość odpowiedzi (np. 16K tokenów) jest stopniowo zwiększana, umożliwiając głębsze rozumowanie przy jednoczesnym zachowaniu równowagi między wydajnością a dokładnością.
CAMPO wprowadza również dynamiczną karę za powtórzenia, penalizującą nadmierne lub przedwczesne powtórzenia w generowanych odpowiedziach. Zapobiega to załamaniu użyteczności modelu i wymusza różnorodność generowanych treści. Uzupełnieniem jest precyzyjny zewnętrzny weryfikator, który znacznie poprawia system informacji zwrotnej, rzetelnie oceniając odpowiedzi matematyczne, w tym przypadki z jednostkami, liczbą pi czy procentami. Zapewnia to, że sygnały treningowe są ściśle zgodne z rzeczywistą poprawnością. Dzięki CAMPO modele rozwiązują problemy za pomocą mniejszej liczby, bardziej trafnych tokenów, co przyspiesza wnioskowanie i redukuje koszty, nie wpływając negatywnie na dokładność.
Wydajność wobec benchmarków
Otwarte modele MiroMind osiągają bardzo konkurencyjne lub najnowocześniejsze wyniki wśród otwartych modeli matematycznych opartych na Qwen-2.5 (7B/32B parametrów). Modele MiroMind-M1-RL nie tylko dorównują lub przewyższają dokładność innych modeli, ale robią to z większą efektywnością tokenową. Model 32B generuje krótsze, bardziej zwięzłe rozwiązania bez utraty poprawności, co jest zasługą treningu CAMPO.
Dla przykładu, w teście AIME24, MiroMind-RL-7B osiągnął 73.4, przewyższając MiMo-7B-RL (68.2) i Skywork-OR1-7B (72.2). W AIME25, MiroMind-RL-7B uzyskał 57.8, w porównaniu do 55.4 dla MiMo-7B-RL i 54.6 dla Skywork-OR1-7B. Wersja 32B MiroMind-RL osiągnęła 77.5 w AIME24, konkurując ze Skywork-OR1-32B (77.1). Te wyniki potwierdzają, że osiągnięcie precyzji może iść w parze z optymalizacją długości odpowiedzi.
Pełna otwartość i odtwarzalność
Każdy komponent stosu MiroMind-M1 został publicznie udostępniony, co ma kluczowe znaczenie dla odtwarzalności i współpracy naukowej. Obejmuje to wagi modeli (punkty kontrolne SFT i RL dla skal 7B i 32B), pełne zbiory danych (719 tysięcy dla SFT i 62 tysiące dla RLVR), skrypty treningowe wspierające rozproszony trening w środowisku Ray oraz kod ewaluacyjny ze standaryzowanymi skryptami i konfiguracjami benchmarków. Dzięki temu badacze mogą replikować, audytować i rozszerzać MiroMind-M1, od surowych danych po wytrenowane modele, przyczyniając się do dalszego postępu w otwartych badaniach nad LLM.
Wnioski
Projekt MiroMind-M1 jasno pokazuje, że dzięki starannej kuracji danych, innowacyjnym algorytmom RL (CAMPO) oraz radykalnej transparentności, otwarte modele językowe mogą skutecznie konkurować z systemami własnościowymi w zaawansowanym rozumowaniu matematycznym. Projekt ten wyznacza nowy standard w zakresie odtwarzalności i wspólnego postępu w dziedzinie rozumowania LLM, dostarczając zarówno wysokiej jakości zasób, jak i solidną platformę dla przyszłych innowacji.
