Hardware

Nvidia stawia na dedykowaną inferencję: architektura Vera Rubin i Groq 3 LPX zmieniają reguły gry

Jensen Huang nie zwalnia tempa w wyścigu zbrojeń AI. Podczas tegorocznej konferencji GTC 2026 dowiedzieliśmy się, że zaprezentowana na styczniowych targach CES platforma Vera Rubin to dopiero początek szeroko zakrojonej ofensywy. Nvidia nie tylko odświeża swoje portfolio, ale przeprowadza fundamentalną zmianę architektury, wprowadzając po raz pierwszy dedykowany sprzęt do inferencji oraz całkowicie nową strukturę szaf obliczeniowych, które eliminują wąskie gardła fizycznej instalacji.

Przełom w architekturze: Vera Rubin POD

Fundamentem nowej strategii jest Vera Rubin POD – gigantyczna jednostka obliczeniowa składająca się z 40 szaf i dysponująca mocą 60 eksaflopsów. Serce systemu stanowi szafa NVL72, integrująca 72 układy GPU Rubin i 36 procesorów Vera CPU. Inżynieryjny kunszt Nvidii uwidacznia się w sposobie montażu: wyeliminowano tradycyjne okablowanie i wentylatory na rzecz połączeń midplane PCB. Dzięki temu czas montażu pojedynczego modułu skrócono z dwóch godzin do zaledwie pięciu minut. To krytyczna optymalizacja w czasie, gdy centra danych muszą być skalowane niemal natychmiastowo.

Nowa architektura to także potężny skok wydajności energetycznej. Nvidia deklaruje dziesięciokrotny wzrost wydajności inferencji na wat w porównaniu do obecnej generacji Blackwell. Wykorzystanie szóstej generacji NVLink pozwala na osiągnięcie przepustowości 3,6 TB/s na GPU, co w skali całej szafy daje oszałamiające 260 terabajtów na sekundę.

Groq 3 LPX: Koniec monopolu GPU na inferencję?

Najbardziej zaskakującym ruchem jest integracja technologii Groq 3 LPX. Po latach dominacji uniwersalnych układów GPU, Nvidia wprowadza dedykowaną linię LPU (Language Processing Units), zoptymalizowaną pod kątem niskiej latencji w generowaniu tokenów. To bezpośrednia odpowiedź na sukcesy startupów takich jak Cerebras. System Groq 3 LPX, umieszczony w dedykowanych szafach, oferuje do 35 razy więcej tokenów dla modeli o parametrach liczonych w trylionach, co drastycznie obniża koszty operacyjne i otwiera nowe możliwości monetyzacji usług AI.

Agentowa przyszłość i optymalizacja pamięci

Nvidia dostrzega, że współczesne AI to nie tylko jednorazowe zapytania, ale długotrwałe interakcje z agentami. Wprowadzona platforma CMX wykorzystuje procesory BlueField-4 STX do odciążenia pamięci KV cache. Przeniesienie kontekstu rozmowy do dedykowanej warstwy pozwala traktować go jako zasób wielokrotnego użytku, dostępny dla różnych agentów w ramach jednej sesji. Nad wszystkim czuwa Dynamo 1.0 – otwartoźródłowy system operacyjny do inferencji, który inteligentnie zarządza zasobami w całym klastrze.

Ekosystem i kontrowersje wokół DLSS 5

W warstwie oprogramowania Nvidia inicjuje powstanie Nemotron Coalition – sojuszu na rzecz rozwoju otwartych modeli, co jest wyraźnym sygnałem walki z zamkniętymi ekosystemami korporacyjnymi. Bezpieczeństwo tych modeli ma gwarantować stos NemoClaw, dedykowany aplikacjom agentowym.

Mimo sukcesów w sektorze enterprise, Nvidia nie unika kontrowersji na rynku konsumencznym. Zapowiedziana technologia renderowania neuronowego DLSS 5, choć obiecuje niespotykaną fotorealistyczność, spotyka się z krytyką ze strony środowisk artystycznych. Gracze i twórcy obawiają się, że zbyt duża ingerencja AI w proces generowania obrazu może zatrzeć pierwotną wizję artystyczną twórców gier. To przypomnienie, że nawet w świecie zdominowanym przez eksaflopsy, czynnik ludzki i autentyczność pozostają istotnym punktem sporu.