Agenci AILLM

NVIDIA prezentuje Nemotron 3: Nowa generacja modeli AI dla sztucznej inteligencji agentowej

NVIDIA ogłosiła premierę Nemotron 3, innowacyjnej rodziny otwartych modeli sztucznej inteligencji, która stanowi kluczowy element pełnego stosu technologicznego dla AI agentowej. Nowa oferta obejmuje nie tylko same wagi modeli, ale także dedykowane zestawy danych i narzędzia do uczenia ze wzmocnieniem, co podkreśla kompleksowe podejście firmy do rozwoju zaawansowanych systemów AI.

Rodzina Nemotron 3 składa się z trzech wariantów: Nano, Super i Ultra, każdy zaprojektowany z myślą o różnych profilach obciążeń i systemach wieloagentowych, które wymagają zdolności do wnioskowania z długiego kontekstu przy jednoczesnej optymalizacji kosztów inferencji. Nemotron 3 Nano dysponuje około 30 miliardami parametrów, z czego około 3 miliardy są aktywne na token. Wersja Super zwiększa tę liczbę do około 100 miliardów parametrów i do 10 miliardów aktywnych, natomiast Nemotron 3 Ultra to imponujące 500 miliardów parametrów, z czego do 50 miliardów jest aktywnych na token.

Architektura hybrydowa zapewniająca wydajność

Centralnym punktem innowacji w Nemotron 3 jest architektura hybrydowa, łącząca bloki sekwencyjne Mamba, bloki uwagi (Transformer) oraz rzadkie bloki Mixture of Experts (MoE) w pojedynczym stosie. To podejście ma na celu połączenie zalet tych trzech technik w celu uzyskania wysokiej wydajności i skalowalności.

W modelu Nemotron 3 Nano zespół badawczy NVIDIA zastosował wzorzec przeplatania bloków Mamba 2, bloków uwagi i bloków MoE. Standardowe warstwy feedforward z poprzednich generacji Nemotron zastąpiono warstwami MoE. Inteligentny router odpowiada za selekcję niewielkiego podzbioru ekspertów na token – na przykład 6 z 128 możliwych w przypadku Nano – co pozwala utrzymać liczbę aktywnych parametrów na poziomie około 3,2 miliarda, mimo że pełny model liczy 31,6 miliarda parametrów. Takie rozwiązanie zapewnia wysoką zdolność reprezentacji przy zachowaniu niskiego zapotrzebowania na moc obliczeniową.

Mamba 2 efektywnie radzi sobie z modelowaniem długich sekwencji poprzez aktualizacje w stylu State Space Models, natomiast warstwy uwagi umożliwiają bezpośrednie interakcje token-token, co jest kluczowe dla zadań wrażliwych na strukturę. Mixture of Experts pozwala na skalowanie liczby parametrów bez proporcjonalnego wzrostu kosztów obliczeniowych. Istotą jest to, że większość warstw to szybkie obliczenia sekwencyjne lub rzadkie obliczenia ekspertów, a pełna uwaga jest wykorzystywana tylko tam, gdzie jest to najbardziej krytyczne dla wnioskowania.

Zaawansowane funkcje w modelach Super i Ultra

W wariantach Nemotron 3 Super i Ultra NVIDIA wprowadza dodatkowo LatentMoE. W tym podejściu tokeny są rzutowane na niższą wymiarowo przestrzeń latentną, gdzie eksperci wykonują swoje obliczenia, a następnie wyniki są rzutowane z powrotem. Ta technika pozwala na wykorzystanie znacznie większej liczby ekspertów przy podobnych kosztach komunikacji i obliczeń, co sprzyja większej specjalizacji modeli w różnych zadaniach i językach.

Super i Ultra wyposażono również w funkcję przewidywania wielu tokenów (multi-token prediction). Wiele głowic wyjściowych współdzieli wspólny trzon i przewiduje kilka przyszłych tokenów w jednym przebiegu. Podczas treningu usprawnia to optymalizację, a w fazie inferencji umożliwia dekodowanie spekulacyjne, co przekłada się na szybsze działanie z mniejszą liczbą pełnych przebiegów wnioskowania.

Dane treningowe i optymalizacja precyzji

Nemotron 3 został przeszkolony na ogromnej ilości danych tekstowych i kodowych. Zespół badawczy podaje, że pretrening obejmował około 25 bilionów tokenów, z czego ponad 3 biliony to nowe, unikalne tokeny w porównaniu do generacji Nemotron 2. Nemotron 3 Nano wykorzystuje szeroki zbiór danych, w tym Nemotron Common Crawl v2 point 1, Nemotron CC Code i Nemotron Pretraining Code v2, a także specjalistyczne zestawy danych dla treści naukowych i wnioskujących.

Warto zwrócić uwagę, że modele Super i Ultra są trenowane głównie w formacie NVFP4, 4-bitowym formacie zmiennoprzecinkowym zoptymalizowanym dla akceleratorów NVIDIA. Operacje mnożenia macierzy są wykonywane w NVFP4, podczas gdy akumulacje używają wyższej precyzji. Ma to na celu zmniejszenie zapotrzebowania na pamięć i zwiększenie przepustowości przy jednoczesnym utrzymaniu precyzji bliskiej standardowym formatom.

Wszystkie modele Nemotron 3 obsługują okna kontekstowe o długości do miliona tokenów. Architektura i proces treningowy zostały dostrojone do długoterminowego wnioskowania w tym zakresie, co jest niezbędne dla środowisk wieloagentowych, które wymieniają duże ślady i współdzieloną pamięć roboczą między agentami.

Dostępność na rynku

Nemotron 3 Nano jest już dostępny z otwartymi wagami i przepisami na platformie Hugging Face oraz jako mikroserwis NVIDIA NIM. Warianty Super i Ultra planowane są na pierwszą połowę 2026 roku, co sugeruje strategiczne podejście do stopniowego wprowadzania bardziej zaawansowanych wersji na rynek.