NVIDIA prezentuje Nemotron Nano 2: Nowa generacja modeli AI gotowych do zastosowań korporacyjnych
NVIDIA ogłosiła premierę Nemotron Nano 2, nowej linii językowych modeli (LLM) opartych na hybrydowej architekturze Mamba-Transformer. Modele te mają oferować nie tylko wysoką dokładność wnioskowania, ale również, według zapewnień producenta, nawet sześciokrotnie wyższą przepustowość w porównaniu do modeli o zbliżonej wielkości.
Kluczowym elementem nowej oferty NVIDIA jest transparentność. Firma udostępnia społeczności sporą część korpusu danych treningowych, receptury oraz punkty kontrolne modeli. To otwiera drogę do dalszego rozwoju i weryfikacji algorytmów przez niezależnych badaczy i inżynierów. Co istotne, modele te utrzymują możliwość operowania na kontekście o długości aż 128 tysięcy tokenów na pojedynczej, średniej klasy karcie graficznej, co obniża barierę wejścia dla zastosowań wymagających analizy długich sekwencji danych.
Główne zalety Nemotron Nano 2
- Wysoka przepustowość: Modele Nemotron Nano 2 generują tokeny do 6.3 razy szybciej niż modele takie jak Qwen3-8B w scenariuszach wymagających intensywnego wnioskowania, zachowując przy tym porównywalną dokładność.
- Dokładność: Model osiąga bardzo dobre wyniki w zadaniach związanych z rozumowaniem, kodowaniem i obsługą wielu języków. W testach wypada porównywalnie lub lepiej niż konkurencyjne otwarte modele, szczególnie w obszarach matematyki, kodowania, wykorzystania narzędzi i zadań wymagających analizy długiego kontekstu.
- Długi kontekst: Dzięki efektywnemu pruningowi i hybrydowej architekturze, możliwe jest przetwarzanie kontekstu o długości 128 tysięcy tokenów na pojedynczej karcie NVIDIA A10G (22GiB).
- Dostęp do danych: NVIDIA udostępnia większość danych użytych do pre-trainingu i post-trainingu, w tym zbiory danych zawierające kod, treści matematyczne, dane wielojęzyczne, syntetyczne dane SFT i dane dotyczące rozumowania. Wszystkie te zasoby są dostępne na licencji permissive na platformie Hugging Face.
Hybrydowa architektura: Połączenie Mamba i Transformer
Nemotron Nano 2 bazuje na architekturze hybrydowej, łączącej Mamba i Transformer, inspirowanej architekturą Nemotron-H. Większość tradycyjnych warstw self-attention zastąpiono wydajnymi warstwami Mamba-2, a tylko około 8% wszystkich warstw wykorzystuje mechanizm self-attention. Takie rozwiązanie optymalizuje modele pod kątem szybkości i efektywności.
Model o 9 miliardach parametrów składa się z 56 warstw (z 62 warstw pre-trained), ukrytego rozmiaru 4480, grouped-query attention oraz warstw state space Mamba-2, co zapewnia skalowalność i efektywne zarządzanie długimi sekwencjami. Warstwy Mamba-2, zyskujące na popularności jako modele sekwencyjne o wysokiej przepustowości, są przeplatane z rozrzedzonym self-attention (dla zachowania zależności długodystansowych) i dużymi sieciami feed-forward. Ta struktura zapewnia wysoką przepustowość w zadaniach wymagających „śladów myślenia” – długich generacji opartych na długich, kontekstowych danych wejściowych – gdzie tradycyjne architektury oparte na transformerach często zwalniają lub wyczerpują pamięć.
Proces treningowy: Różnorodność danych i otwarte zasoby
Modele Nemotron Nano 2 są trenowane i destylowane z modelu nauczycielskiego o 12 miliardach parametrów, wykorzystując obszerny, wysokiej jakości korpus danych. NVIDIA udostępnia dane treningowe, co umożliwia weryfikację i reprodukcję wyników. Dane użyte do pre-trainingu mają objętość 20T tokenów i pochodzą z różnych źródeł, w tym z wyselekcjonowanych i syntetycznych korpusów obejmujących strony internetowe, treści matematyczne, kod, dane wielojęzyczne, akademickie i STEM.
Udostępnione zbiory danych obejmują Nemotron-CC-v2 (wielojęzyczny web crawl, syntetyczne Q&A), Nemotron-CC-Math (133 miliardy tokenów treści matematycznych), Nemotron-Pretraining-Code (kod źródłowy z GitHub) i Nemotron-Pretraining-SFT (syntetyczne dane instruction-following). Dodatkowo, udostępniono ponad 80 miliardów tokenów danych do post-trainingu, obejmujących supervised fine-tuning (SFT), RLHF, tool-calling i dane wielojęzyczne.
Alignment, destylacja i kompresja
Proces kompresji modeli NVIDIA opiera się na frameworkach „Minitron” i Mamba pruning. Destylacja wiedzy z modelu nauczycielskiego o 12 miliardach parametrów redukuje model do 9 miliardów parametrów, z pruningiem warstw, wymiarów FFN i szerokości embeddingu. Wielostopniowe SFT i RL obejmują optymalizację tool-calling (BFCL v3), instruction-following (IFEval), reinforcement DPO i GRPO oraz kontrolę „budżetu myślenia”. Dzięki architekturze search, modele są specjalnie zaprojektowane tak, aby model i pamięć podręczna key-value mieściły się i działały wydajnie w pamięci GPU A10G przy długości kontekstu 128k.
Rezultat: szybkość wnioskowania do 6x szybsza niż u konkurencji w scenariuszach z dużymi tokenami wejściowymi/wyjściowymi, bez kompromisów w dokładności zadań.
Wyniki testów
W bezpośrednich testach porównawczych, modele Nemotron Nano 2 osiągają doskonałe wyniki w wielu zadaniach. Przykładowo, w teście GSM8K CoT (Math) model osiągnął wynik 91.4, podczas gdy Qwen3-8B – 84.0, a Gemma3-12B – 74.5. Podobnie, w teście MATH, Nemotron Nano 2 uzyskał 80.5, Qwen3-8B – 55.4, a Gemma3-12B – 42.4. Prędkość przetwarzania (tokenów/s/GPU) przy 8k input/16k output jest do 6.3x większa niż Qwen3-8B w rozumowaniu. Model utrzymuje do 128k-context z batch size=1.
Podsumowanie
Premiera Nemotron Nano 2 stanowi istotny krok w rozwoju otwartych modeli językowych. Nowe modele NVIDIA redefiniują możliwości pojedynczego, niedrogiego GPU – zarówno pod względem szybkości, jak i pojemności kontekstowej – jednocześnie podnosząc poprzeczkę transparentności i odtwarzalności danych. Hybrydowa architektura, wysoka przepustowość i wysokiej jakości otwarte zbiory danych mają przyspieszyć innowacje w ekosystemie AI.
