Broadcom rzuca wyzwanie InfiniBand Nvidii: Tomahawk Ultra zmienia reguły gry w AI
W obliczu rosnącego zapotrzebowania na wydajne sieci w systemach sztucznej inteligencji, Broadcom zaprezentował swój najnowszy przełącznik Tomahawk Ultra. Urządzenie, które już trafia do pierwszych klientów, ma ambicje konkurować z technologią InfiniBand Nvidii, dotychczas dominującą w obszarze superszybkich połączeń dla klastrów AI. Decyzja Broadcomu o wejściu na ten rynek podkreśla strategiczne znaczenie warstwy sieciowej w architekturze nowoczesnych centrów danych.
Przejęcie Mellanox przez Nvidię w 2020 roku za 7 miliardów dolarów ugruntowało jej pozycję jako kluczowego gracza, dostarczającego nie tylko chipy AI, ale także technologię InfiniBand, niezbędną do łączenia tysięcy akceleratorów w procesie trenowania wielkich modeli językowych. W miarę jak firmy inwestują miliardy w infrastrukturę AI, sprzęt sieciowy stał się niemal równie cennym zasobem jak same procesory.
Udoskonalony Ethernet dla AI
Tradycyjny standard Ethernetu długo uznawano za niewystarczająco szybki i zawodny dla złożonych obciążeń AI. Trenowanie modeli wymaga ciągłej wymiany danych między tysiącami chipów, a jakiekolwiek opóźnienia czy utrata pakietów mogą skutkować restartem całego procesu, co przekłada się na straty cennego czasu obliczeniowego. Broadcom poświęcił lata na przeprojektowanie sposobu działania Ethernetu, aby sprostać tym wyzwaniom.
Tomahawk Ultra może przesyłać 51,2 terabita danych na sekundę, zachowując jednocześnie niezwykle niskie opóźnienia, których wymagają systemy AI. Jak podkreśla Ram Velaga z Broadcom, „To podsumowuje zaangażowanie Broadcomu w rozwój Ethernetu dla wysokowydajnych sieci i skalowania AI”.
Innowacje w bezstratnym przesyłaniu danych
Kluczową innowacją w Tomahawk Ultra jest zdolność do tworzenia „bezstratnej sieci” (lossless fabric). Przełącznik integruje dwa mechanizmy zapobiegające utracie pakietów: Link Layer Retry (LLR) i Credit-Based Flow Control (CBFC). LLR wykrywa błędy transmisji za pomocą korekcji błędów z wyprzedzeniem (Forward Error Correction) i automatycznie retransmituje pakiety, zanim dotrą one do wyższych warstw protokołu. CBFC natomiast efektywnie zarządza poziomem buforów, aby zapobiec ich przepełnieniu, które jest typową przyczyną zrzucania pakietów. W kontekście AI, gdzie utrata nawet pojedynczego pakietu może wymusić restart kosztownych operacji treningowych, funkcja ta jest nie do przecenienia.
Ponadto Tomahawk Ultra obsługuje operacje zbiorcze, takie jak AllReduce czy AllGather, bezpośrednio w sprzęcie, odciążając w ten sposób jednostki przetwarzające. Ta funkcjonalność współpracuje z dowolnym sprzętem końcowym, co pozwala na wdrożenie rozwiązania w różnych ekosystemach bez potrzeby specyficznego wsparcia akceleratorów.
Współpraca i otwarte standardy
Broadcom opracował również specyfikację Scale-Up Ethernet (SUE), która precyzuje integrację przełącznika z systemami AI. W połączeniu ze sprzętem zgodnym z SUE, Tomahawk Ultra umożliwia komunikację między jednostkami przetwarzającymi z opóźnieniem poniżej 400 nanosekund, wliczając w to czas przejścia przez przełącznik. Firma udostępniła specyfikację SUE publicznie oraz stworzyła SUE-Lite, uproszczoną wersję dla zastosowań o ograniczonych zasobach energetycznych, zachowującą niskie opóźnienia przy mniejszej powierzchni krzemu i zużyciu energii w akceleratorach AI i procesorach.
Wielu producentów sprzętu potwierdziło plany integracji nowego przełącznika ze swoimi systemami. Accton, Delta Electronics, HPE oraz inni przygotowują produkty oparte na tym chipie, podkreślając kompatybilność pin-to-pin jako kluczowy czynnik przyspieszający prace rozwojowe.
AMD planuje połączyć Tomahawk Ultra ze swoimi procesorami graficznymi Instinct i procesorami EPYC. Jak zauważa Forrest Norrod z AMD: „Niskie opóźnienia są kluczowe dla uwolnienia pełnego potencjału AI – od skrócenia czasu treningu po umożliwienie wnioskowania w czasie rzeczywistym. Łącząc nowy przełącznik Broadcomu Tomahawk Ultra z procesorami graficznymi AMD Instinct i procesorami EPYC, oferujemy wysokowydajne, standardowe rozwiązania Ethernet dla infrastruktury AI”.
Intel również potwierdził konfiguracje łączące do 64 akceleratorów AI Gaudi 3 na racku z wykorzystaniem Tomahawk Ultra, osiągając przepustowość pamięci rzędu 76,8 TB/s. „Ta przepustowość na poziomie racka otwiera nowe możliwości dla treningu i wnioskowania w czasie rzeczywistym najbardziej złożonych LLM, redefiniując standardy branżowe” – komentuje Saurabh Kulkarni z Intela.
To, co wyróżnia Tomahawk Ultra, to pełna kompatybilność pin-to-pin z istniejącym Tomahawk 5, co umożliwia producentom sprzętu modernizację dotychczasowych projektów bez konieczności wprowadzania zmian na poziomie płytek drukowanych.
Analityk Bloomberg Intelligence, Kunjan Sobhani, zauważa, że „obciążenia AI i HPC zbiegają się w ściśle powiązane klastry akceleratorów, które wymagają opóźnień klasy superkomputerowej – kluczowych dla wnioskowania, niezawodności i inteligencji w sieci samej w sobie. Wykazanie, że otwarty standard Ethernetu może teraz zapewnić przełączanie submikrosekundowe, bezstratny transport i kolekcję on-chipową, stanowi kluczowy krok w kierunku zaspokojenia tych wymagań stosu AI, którego wartość szacuje się na dziesiątki miliardów dolarów w ciągu kilku lat”.
