Sekret tkwi w danych. Jak model Nanbeige-3B deklasuje rywali dziesięć razy większych
Wielkość nie zawsze ma znaczenie
W świecie wielkich modeli językowych przez lata dominowała prosta zasada: im więcej parametrów, tym lepsze wyniki. Laboratorium Nanbeige LLM Lab, działające w ramach firmy Boss Zhipin, postanowiło zakwestionować ten paradygmat. Ich najnowsze dzieło, Nanbeige4-3B-Thinking, model o „zaledwie” 3 miliardach parametrów, w kluczowych testach na rozumowanie logiczne pokonuje znacznie potężniejszych konkurentów z rodziny Qwen3, mających nawet 32 miliardy parametrów. Kluczem do sukcesu nie jest surowa moc obliczeniowa, lecz bezprecedensowe podejście do jakości danych, ich selekcji i całego procesu treningowego.
Wyniki mówią same za siebie. W teście AIME 2024, oceniającym zdolności matematyczne, Nanbeige4-3B uzyskał 90,4 punktów, podczas gdy znacznie większy Qwen3-32B zatrzymał się na 81,4 punktach. Podobną przewagę widać w teście GPQA-Diamond, gdzie mały model osiągnął 82,2 punkty, deklasując Qwen3-14B (64,0 pkt) i Qwen3-32B (68,7 pkt). Badacze z Nanbeige podkreślają, że ich model wykazuje również lepsze zdolności do korzystania z narzędzi (benchmark BFCL-V4) i dorównuje najlepszym w teście Arena-Hard V2.
Należy jednak zachować obiektywizm – Nanbeige4-3B nie jest zwycięzcą na wszystkich polach. W testach Fullstack-Bench, sprawdzających umiejętności programistyczne, oraz w SuperGPQA, ustępuje modelom z serii Qwen3. To pokazuje, że jego siła jest wyspecjalizowana i skoncentrowana na konkretnych zdolnościach kognitywnych, co samo w sobie jest cenną informacją o kierunku rozwoju mniejszych, ale bardziej wyspecjalizowanych modeli AI.
Góra danych, ale filtrowanych z aptekarską precyzją
Tym, co wyróżnia projekt Nanbeige, jest metodologia przygotowania danych treningowych. Zamiast polegać na gigantycznym, ale mało zróżnicowanym zbiorze, zespół zastosował wieloetapowy proces filtrowania i selekcji. Na początku, przy użyciu zaawansowanych technik tagowania i wyszukiwania wektorowego, zidentyfikowano 12,5 biliona tokenów (fragmentów tekstu) wysokiej jakości. Następnie z tej puli wyselekcjonowano jeszcze lepszy podzbiór liczący 6,5 biliona tokenów, który był wielokrotnie wykorzystywany w procesie uczenia (tzw. upsampling). W efekcie model „przeczytał” materiał odpowiadający 23 bilionom tokenów.
Co istotne, dane nie były traktowane jednakowo. Zamiast losowego podawania informacji, badacze wdrożyli harmonogram uczenia nazwany FG-WSD (Fine-Grained Warmup-Stable-Decay). W praktyce oznacza to, że model na późniejszych etapach treningu otrzymywał dane o coraz wyższej jakości i złożoności. Testy na mniejszej, miliardowej wersji modelu pokazały, że samo zastosowanie tej techniki podniosło wynik w teście matematycznym GSM8K z 27,1 do 34,3 punktu.
Nauka poprawnego rozumowania, a nie tylko odpowiedzi
Kolejny innowacyjny element to wieloetapowe dostrajanie (fine-tuning). Zamiast uczyć model wyłącznie na parach pytanie-odpowiedź, skupiono się na jakości samego procesu myślowego. Zastosowano technikę, w której model najpierw generuje rozwiązanie, następnie je krytykuje i poprawia w oparciu o dynamiczną listę kontrolną. Dopiero na końcu inny model rekonstruuje spójny i logiczny „ciąg myślowy” (Chain-of-Thought), który doprowadził do ostatecznej, poprawionej odpowiedzi. Dzięki temu Nanbeige4-3B uczy się na poprawnych ścieżkach rozumowania, a nie na błędnych, które przypadkiem doprowadziły do dobrego wyniku.
Całość procesu zamyka destylacja wiedzy od większego modelu-nauczyciela (Nanbeige3.5-Pro) oraz wieloetapowe uczenie ze wzmocnieniem (RL). W tej fazie model był nagradzany za poprawne odpowiedzi, których poprawność weryfikowały zewnętrzne narzędzia – na przykład interpreter Pythona do zadań matematycznych czy wyizolowane środowisko (sandbox) do testowania kodu. Takie podejście minimalizuje ryzyko, że model nauczy się oszukiwać system oceny (tzw. reward hacking) i zapewnia, że jego umiejętności są realne i weryfikowalne.
Nowy kierunek w rozwoju AI
Projekt Nanbeige4-3B to mocny sygnał dla całej branży. Udowadnia, że era bezrefleksyjnego skalowania modeli może powoli dobiegać końca. Zamiast budować coraz większe i bardziej energochłonne architektury, przyszłość może należeć do mniejszych, ale trenowanych w znacznie bardziej inteligentny sposób. Skupienie na jakości danych, zaawansowanych harmonogramach uczenia i weryfikacji poprawności rozumowania, a nie tylko odpowiedzi, otwiera drogę do tworzenia bardziej wydajnych i wyspecjalizowanych narzędzi AI.
