Krajobraz po MLPerf v6.0: Dominacja NVIDII, ambicje AMD i nowa strategia Intela
Najnowsza edycja benchmarku MLPerf Inference v6.0, opublikowana przez organizację MLCommons, to coś więcej niż tylko kolejna tabela z wynikami. To obraz rynku, na którym trzech głównych graczy – NVIDIA, AMD i Intel – przestało walczyć na jednym froncie, wybierając własne, specyficzne pola bitwy. Po raz pierwszy w historii testami objęto modele multimodalne oraz generatory wideo, co nadało rywalizacji wymiar odpowiadający dzisiejszym realiom rynkowym. Jednak interpretacja danych wymaga tym razem wyjątkowej czujności.
NVIDIA: Inżynieria skali i potęga oprogramowania
NVIDIA po raz kolejny udowodniła, że jej ekosystem to nie tylko krzem, ale przede wszystkim dopracowany stos programowy. Firma wykorzystała konfigurację złożoną z aż 288 procesorów graficznych Blackwell Ultra (GB300-NVL72), połączonych w jeden klaster za pomocą sieci InfiniBand Quantum-X800. Efekt? Rekordowe 2,49 miliona tokenów na sekundę w teście DeepSeek-R1. To pokaz siły w kontekście budowy gigantycznych farm obliczeniowych.
Co jednak ciekawsze, NVIDIA wykazała, że potrafi niemal trzykrotnie (2,7x) zwiększyć wydajność na tym samym sprzęcie wyłącznie dzięki optymalizacji kodu. Wykorzystanie frameworku NVIDIA Dynamo, który rozdziela proces przetwarzania zapytania od generowania tokenów, oraz techniki Multi-Token Prediction pozwoliło na drastyczne obniżenie kosztów operacyjnych. W świecie, gdzie każda kilowatogodzina ma znaczenie, redukcja Peak TCO o 60% jest argumentem równie silnym, co czysta moc obliczeniowa.
AMD depcze po piętach w pojedynczych instancjach
Z obozu AMD płyną komunikaty pełne pewności siebie. Nowy akcelerator Instinct MI355X, oparty na architekturze CDNA 4, zdołał przekroczyć magiczną barierę miliona tokenów na sekundę w scenariuszach wielowęzłowych. Kluczowe dla branży są jednak porównania jednostkowe. W konfiguracjach z ośmioma procesorami graficznymi (GPU), flagowiec AMD rzucił bezpośrednie wyzwanie układom NVIDIA B200 i B300.
Analiza danych pokazuje, że w modelu Llama 2 70B, AMD osiągnęło wyniki niemal identyczne (97-104% wydajności B200) lub wyższe (o 11-15% w stosunku do B200 przy GPT-OSS-120B). Trzeba jednak zauważyć, że AMD nie podjęło rękawicy w teście DeepSeek-R1 – modelu typu Mixture-of-Experts (MoE), w którym NVIDIA notuje swoje największe przewagi. Choć AMD sukcesywnie zmniejsza dystans, ich strategia wydaje się koncentrować na wybranych, najbardziej popularnych modelach, zamiast na pełnym spektrum nowości.
Intel i rynek „edge” – ucieczka do przodu
Strategia Intela jest najbardziej zaskakująca. Gigant z Santa Clara niemal całkowicie wycofał się z bezpośredniego starcia z gigantycznymi akceleratorami konkurencji w centrach danych. Zamiast tego, Intel pozycjonuje swoje procesory graficzne (GPU) Arc Pro B70 i B65 jako idealne rozwiązania dla stacji roboczych i systemów krawędziowych (edge). Podkreślają przy tym rolę procesorów Xeon jako fundamentu systemów AI – ponad połowa wszystkich zgłoszeń w MLPerf 6.0 korzystała właśnie z jednostek Intel Xeon jako procesorów hostujących.
Koniec z prostymi rankingami?
Lektura raportu MLPerf v6.0 nie pozwala na wyłonienie jednego zwycięzcy. NVIDIA dominuje szerokością oferty i skalą, AMD oferuje imponujący stosunek ceny do wydajności w standardowych serwerach, a Intel buduje niszę tam, gdzie mniejsze modele muszą działać lokalnie. Problemem staje się jednak sama metodologia – brak zgłoszeń od Google (TPU Ironwood) czy specjalistów takich jak Cerebras sprawia, że obraz rynku jest niepełny.
Odpowiedzią na ten chaos ma być nowa inicjatywa MLPerf Endpoints, którą aktywnie forsuje NVIDIA. Ma ona mierzyć nie surową przepustowość chipów, ale rzeczywistą wydajność API w warunkach realnego obciążenia ruchem użytkowników. Dopóki taki standard nie powstanie, branża skazana jest na interpretowanie wyników, w których każdy z producentów wybiera te parametry, które akurat stawiają go w najlepszym świetle.
