LLMR & D

NVIDIA i Mistral AI: Dziesięciokrotny skok wydajności w modelach językowych

Współpraca giganta technologicznego NVIDIA z czołowym deweloperem modeli sztucznej inteligencji, Mistral AI, wchodzi w nową fazę, przynosząc przełom w dziedzinie inferencji dużych modeli językowych. Ogłoszenie to, zbiegające się z premierą rodziny modeli Mistral 3, ma zrewolucjonizować wydajność aplikacji AI, szczególnie w kontekście zastosowań korporacyjnych.

Przełomowa wydajność dzięki architekturze Blackwell

Kluczowym elementem ogłoszenia jest dziesięciokrotne przyspieszenie inferencji – procesów wnioskowania modeli AI – osiągnięte na systemach NVIDIA GB200 NVL72. To znaczący postęp w stosunku do poprzedniej generacji sprzętu, H200, i bezpośredni rezultat intensywnej optymalizacji modeli Mistral 3 pod kątem architektury NVIDIA Blackwell. Wyniki te mają fundamentalne znaczenie dla firm, które borykają się z opóźnieniami i wysokimi kosztami związanymi z wdrażaniem zaawansowanych modeli wnioskujących.

Przejście od prostych chatbotów do złożonych systemów agentowych, zdolnych do długich i skomplikowanych konwersacji, stawia nowe wyzwania dla infrastruktury AI. GB200 NVL72 oferuje nie tylko znaczący wzrost prędkości, ale także imponującą efektywność energetyczną, przekraczającą 5 milionów tokenów na sekundę na megawat przy interaktywności na poziomie 40 tokenów na sekundę. Dla centrów danych, gdzie zużycie energii jest kluczową kwestią, ta poprawa efektywności jest równie istotna jak sam wzrost wydajności, skutkując niższym kosztem na token i wysoką przepustowością niezbędną dla aplikacji czasu rzeczywistego.

Nowa rodzina modeli Mistral 3

Za tym skokiem wydajności stoi nowa rodzina modeli Mistral 3, charakteryzująca się wysoką dokładnością, efektywnością i elastycznością dostosowania. Obejmuje ona rozwiązania zarówno dla dużych obciążeń w centrach danych, jak i inferencji na urządzeniach brzegowych.

Mistral Large 3: Flagowy model Mixture-of-Experts (MoE)

Na szczycie hierarchii znajduje się Mistral Large 3 – zaawansowany, wielojęzyczny i multimodalny model typu Mixture-of-Experts (MoE). Posiadając 675 miliardów parametrów ogółem i 41 miliardów aktywnych parametrów, z oknem kontekstowym rzędu 256 tysięcy tokenów, został wytrenowany na procesorach graficznych NVIDIA Hopper. Jego celem jest sprostanie złożonym zadaniom rozumowania, oferując elastyczność otwartych wag porównywalną z zamkniętymi modelami klasy premium.

Ministral 3: Kompaktowa moc dla urządzeń brzegowych

Uzupełnieniem jest seria Ministral 3 – zbiór mniejszych, gęstych i wysoce wydajnych modeli, zaprojektowanych z myślą o szybkości i wszechstronności. Dostępne są w wariantach 3B, 8B i 14B parametrów, z wersjami podstawowymi, instruktażowymi oraz rozumującymi dla każdego rozmiaru. Wszystkie oferują okno kontekstowe o rozmiarze 256 tysięcy tokenów. Modele te, pomimo mniejszej liczby tokenów, osiągają wyższą dokładność w benchmarku GPQA Diamond Accuracy w porównaniu do poprzedników.

Kompleksowa optymalizacja inżynieryjna

Fenomen dziesięciokrotnego wzrostu wydajności jest efektem głębokiej inżynierii i podejścia „ekstremalnego współprojektowania” pomiędzy inżynierami Mistral AI i NVIDIA. To holistyczne połączenie optymalizacji sprzętowej i architektonicznej modelu.

Wykorzystanie TensorRT-LLM i Wide Expert Parallelism (Wide-EP)

Aby w pełni wykorzystać potencjał GB200 NVL72, NVIDIA zastosowała technologię Wide Expert Parallelism w ramach TensorRT-LLM. Rozwiązanie to optymalizuje jądra MoE GroupGEMM, rozkład ekspertów i równoważenie obciążenia. Wide-EP efektywnie wykorzystuje spójną domenę pamięci NVL72 oraz sieć NVLink, zapewniając, że nawet bardzo duże modele, takie jak Mistral Large 3 (posiadający około 128 ekspertów na warstwę), nie napotykają na wąskie gardła komunikacyjne.

Kwantyzacja NVFP4

Jednym z najważniejszych udoskonaleń technicznych jest natywne wsparcie dla formatu kwantyzacji NVFP4, specyficznego dla architektury Blackwell. Dla Mistral Large 3 deweloperzy mogą korzystać z zoptymalizowanego obliczeniowo punktu kontrolnego NVFP4, skwantyzowanego offline za pomocą biblioteki llm-compressor. Podejście to redukuje koszty obliczeniowe i pamięciowe przy zachowaniu wysokiej dokładności, szczególnie celując w wagi MoE, podczas gdy inne komponenty utrzymywane są w oryginalnej precyzji.

Dzielone serwowanie z NVIDIA Dynamo

Mistral Large 3 wykorzystuje NVIDIA Dynamo, niskolatencyjną, rozproszoną platformę inferencji, do rozdzielenia faz prefill (przetwarzania prompta) i decode (generowania odpowiedzi). Tradycyjnie te fazy rywalizowały o zasoby. Dzięki rozdzieleniu i dopasowaniu ich przepustowości, Dynamo znacząco zwiększa wydajność dla długich kontekstów, co ma kluczowe znaczenie podczas korzystania z okna kontekstowego 256 tysięcy tokenów.

Wydajność od chmury do urządzeń brzegowych

Optymalizacje wykraczają poza centra danych. Modele Ministral 3 zostały zaprojektowane z myślą o wdrożeniach na urządzeniach brzegowych, oferując elastyczność dla różnorodnych zastosowań.

Akceleracja na platformach RTX i Jetson

Gęste modele Ministral są zoptymalizowane pod kątem platform takich jak NVIDIA GeForce RTX AI PC i moduły robotyczne NVIDIA Jetson. Wariant Ministral-3B może osiągnąć szybkość inferencji 385 tokenów na sekundę na karcie NVIDIA RTX 5090, przynosząc wydajność klasy stacji roboczej do komputerów osobistych. Dla robotyki i AI brzegowej, model Ministral-3-3B-Instruct osiąga 52 tokeny na sekundę dla pojedynczej równoczesności, skalując się do 273 tokenów na sekundę przy ośmiu równoczesnych operacjach na NVIDIA Jetson Thor.

Szerokie wsparcie dla frameworków

NVIDIA aktywnie współpracuje ze społecznością open-source, aby zapewnić szeroką dostępność nowych modeli. Obejmuje to optymalizacje dla popularnych frameworków, takich jak Llama.cpp i Ollama, mające na celu przyspieszenie iteracji i zmniejszenie latencji w środowiskach deweloperskich. Współpraca z SGLang zaowocowała implementacją Mistral Large 3 z obsługą disaggregation i spekulatywnego dekodowania, a z vLLM – wsparciem dla integracji kerneli, w tym spekulatywnego dekodowania (EAGLE) i wsparciem dla architektury Blackwell.

Gotowość do produkcji z NVIDIA NIM

Aby ułatwić wdrażanie w przedsiębiorstwach, nowe modele będą dostępne za pośrednictwem mikroserwisów NVIDIA NIM. Mistral Large 3 i Ministral-14B-Instruct są już dostępne w katalogu API NVIDIA i w ramach podglądu API. Wkrótce deweloperzy będą mogli skorzystać z pobieralnych mikroserwisów NIM, które zapewnią gotowe do produkcji, konteneryzowane rozwiązania do wdrażania rodziny Mistral 3 na dowolnej infrastrukturze akcelerowanej przez procesory graficzne. Takie podejście ma uczynić dostęp do zaawansowanej inteligencji sztucznej bardziej demokratycznym, pozwalając w pełni wykorzystać dziesięciokrotny wzrost wydajności systemów GB200 NVL72 bez konieczności skomplikowanych, niestandardowych wdrożeń.

Nowy standard open source dla AI

Premiera rodziny modeli Mistral 3 akcelerowanych przez NVIDIA stanowi fundamentalny krok dla społeczności AI open-source. Oferując wydajność na poziomie czołowych rozwiązań pod otwartą licencją i wspierając ją solidną optymalizacją sprzętową, Mistral i NVIDIA dostarczają deweloperom skalowalne i efektywne narzędzia. Od GB200 NVL72 wykorzystującego Wide-EP i NVFP4, po kompaktowe modele Ministral na platformie RTX 5090, partnerstwo otwiera drogę dla kolejnej generacji aplikacji AI. Nadchodzące optymalizacje, takie jak spekulatywne dekodowanie z wielotokenową predykcją (MTP) i EAGLE-3, mają jeszcze bardziej zwiększyć wydajność, umacniając rodzinę Mistral 3 jako kluczowy element przyszłości sztucznej inteligencji.

Deweloperzy zainteresowani testowaniem tych innowacji mogą pobrać modele Mistral 3 bezpośrednio z Hugging Face lub przetestować hostowane wersje bez konieczności wdrażania na platformie build.nvidia.com/mistralai, aby ocenić latencję i przepustowość dla swoich specyficznych zastosowań.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *