NVIDIA prezentuje OpenReasoning-Nemotron: nowe modele językowe do zadań logicznych
W najnowszym ruchu, który wzmacnia pozycję firmy w ekosystemie otwartych modeli AI, NVIDIA zaprezentowała OpenReasoning-Nemotron. To rodzina dużych modeli językowych (LLM) zaprojektowanych z myślą o sprostaniu wyzwaniom w obszarze złożonego rozumowania, obejmującego dziedziny takie jak matematyka, nauki ścisłe oraz programowanie.
Nowa seria obejmuje warianty o parametrach 1.5B, 7B, 14B oraz 32B. Kluczowym aspektem ich powstania jest destylacja, czyli proces „uczenia” mniejszych modeli na podstawie wiedzy olbrzymiego modelu DeepSeek R1 0528, który dysponuje 671 miliardami parametrów. Dzięki temu zabiegowi, OpenReasoning-Nemotron-y mają odziedziczyć zdolności rozumowania DeepSeek R1, pozostając jednocześnie znacznie bardziej kompaktowymi i efektywnymi. Ma to potencjał wpłynąć na ich szersze zastosowanie w praktycznych aplikacjach.
Strategia destylacji i dane szkoleniowe
Centralnym elementem projektu OpenReasoning-Nemotron jest unikalna strategia destylacji, która koncentruje się na przeniesieniu ogólnych zdolności rozumowania, a nie wyłącznie na precyzyjnym przewidywaniu tokenów. To odejście ma pozwolić mniejszym modelom na skuteczne operowanie w zadaniach wymagających wysokiego poziomu kognicji i strukturalnego podejścia. Zestaw danych wykorzystany do destylacji został starannie dobrany, z naciskiem na materiały z matematyki, nauk ścisłych i języków programowania. Takie ukierunkowanie ma zapewnić, że modele będą skutecznie radzić sobie z rzeczywistymi problemami logicznymi, zarówno w środowiskach akademickich, jak i w zastosowaniach przemysłowych.
Warto zwrócić uwagę na rygorystyczne kuratorstwo danych. Zestaw treningowy to wysokiej jakości podzbiór danych z DeepSeek R1 0528, zawierający wyselekcjonowane dane dotyczące rozumowania. Dodatkowo, proces dostrajania modeli został wzmocniony technikami inżynierii podpowiedzi (prompt engineering), aby rozwijać wieloetapowe łańcuchy myślowe. Podkreślono również znaczenie spójności logicznej, spełniania ograniczeń oraz rozumowania symbolicznego.
Wydajność w benchmarkach
NVIDIA przedstawiła wyniki wydajności modeli OpenReasoning-Nemotron w kluczowych benchmarkach rozumowania. Jak podano, modele te ustanowiły nowe rekordy pass@1 w swojej klasie rozmiarowej dla szeregu testów, w tym GPQA, MMLU-PRO, LiveCodeBench, SciCode oraz AIME. Na przykład, model 32B osiągnął wynik 73.1 w GPQA i 80.0 w MMLU-PRO, co sugeruje jego zdolność do radzenia sobie z kompleksowymi problemami. Co więcej, zastosowanie techniki Generative Selection (GenSelect) z 64 kandydatami poprawia wydajność, szczególnie dla modelu 32B, który osiągnął imponujące wyniki, takie jak 96.7 w HMMT i 93.3 w AIME24. To pokazuje, że mimo mniejszych rozmiarów, modele te potrafią wykazywać zaskakująco zaawansowane zdolności rozumowania.
Dostępność i przypadki użycia
Wszystkie cztery modele OpenReasoning-Nemotron są dostępne na platformie Hugging Face na otwartej i komercyjnie dopuszczalnej licencji. Oprócz samych wag modeli, udostępniono również karty modeli oraz skrypty ewaluacyjne, co ma ułatwić ich adaptację i dalszy rozwój. Modele są kompatybilne z architekturami Transformer, obsługują kwantyzację FP16/INT8 i zostały zoptymalizowane pod kątem procesorów graficznych NVIDIA oraz frameworka NeMo.
Potencjalne zastosowania OpenReasoning-Nemotron są szerokie. NVIDIA wskazuje na możliwości wykorzystania tych modeli jako narzędzi dla nauczycieli matematyki i rozwiązywania twierdzeń, inteligentnych agentów odpowiadających na pytania naukowe, systemów rozumowania medycznego, asystentów do generowania i debugowania kodu, a także do zaawansowanego pytania i odpowiedzi z wykorzystaniem wieloetapowego łańcucha myślowego. Modele te mogą również znaleźć zastosowanie w generowaniu syntetycznych danych dla domen strukturalnych.
Wprowadzenie OpenReasoning-Nemotron przez NVIDIĘ stanowi krok w kierunku udostępnienia zaawansowanych zdolności rozumowania AI szerokiemu gronu odbiorców, oferując alternatywę dla kosztownych modeli o skali granicznej. Dzięki destylacji z DeepSeek R1 i koncentracji na kluczowych domenach, modele te mają zapewnić równowagę między precyzją, wydajnością i dostępnością, stanowiąc solidną podstawę dla badaczy, programistów i przedsiębiorstw pracujących nad aplikacjami wymagającymi intensywnego użycia logiki.
