Meta i Oracle stawiają na NVIDIA Spectrum-X w swoich centrach danych AI
Meta i Oracle modernizują swoje centra danych AI, integrując przełączniki sieciowe NVIDIA Spectrum-X Ethernet. To odpowiedź na rosnące zapotrzebowanie na moc obliczeniową, wynikające z rozwoju systemów sztucznej inteligencji na dużą skalę. Obie firmy wdrażają Spectrum-X w ramach otwartej architektury sieciowej, mającej na celu poprawę efektywności trenowania modeli AI i przyspieszenie ich wdrażania w ogromnych klastrach obliczeniowych.
Jensen Huang, założyciel i CEO NVIDIA, podkreśla, że modele o bilionach parametrów przekształcają centra danych w „fabryki AI na gigakalę”. Spectrum-X ma pełnić rolę „układu nerwowego”, łączącego miliony procesorów graficznych (GPU) celem trenowania największych modeli, jakie kiedykolwiek powstały.
Oracle buduje fabryki AI z architekturą Vera Rubin
Oracle planuje wykorzystać Spectrum-X Ethernet w połączeniu z architekturą Vera Rubin, by zbudować fabryki AI na dużą skalę. Mahesh Thiagarajan, wiceprezes wykonawczy Oracle Cloud Infrastructure, wyjaśnia, że nowe rozwiązanie pozwoli firmie na bardziej efektywne łączenie milionów GPU, co umożliwi klientom szybsze trenowanie i wdrażanie nowych modeli AI.
Meta stawia na otwartość i efektywność
Meta rozbudowuje swoją infrastrukturę AI, integrując przełączniki Spectrum-X Ethernet z Facebook Open Switching System (FBOSS), własną platformą do zarządzania przełącznikami sieciowymi na dużą skalę. Gaya Nagarajan, wiceprezes ds. inżynierii sieci w Meta, podkreśla, że sieć nowej generacji musi być otwarta i wydajna, aby wspierać coraz większe modele AI i dostarczać usługi miliardom użytkowników.
Elastyczność kluczem do sukcesu
Joe DeLaere, lider NVIDIA ds. rozwiązań akcelerowanych obliczeń dla centrów danych, zaznacza, że elastyczność jest kluczowa w obliczu rosnącej złożoności centrów danych. System NVIDIA MGX oferuje modułową konstrukcję, która pozwala partnerom łączyć różne procesory (CPU), GPU, pamięć masową i komponenty sieciowe w zależności od potrzeb. System promuje również interoperacyjność, umożliwiając organizacjom stosowanie tego samego projektu w różnych generacjach sprzętu.
Wyzwania związane z efektywnością energetyczną
Wraz ze wzrostem rozmiarów modeli AI, efektywność energetyczna staje się kluczowym wyzwaniem dla centrów danych. NVIDIA pracuje nad poprawą zużycia energii i skalowalności, współpracując z dostawcami rozwiązań zasilania i chłodzenia, aby zmaksymalizować wydajność na wat. Jednym z przykładów jest przejście na zasilanie prądem stałym o napięciu 800 V, co zmniejsza straty ciepła i poprawia efektywność. Firma wprowadza również technologię wygładzania mocy, aby zredukować skoki napięcia w sieci elektrycznej – podejście to może zmniejszyć maksymalne zapotrzebowanie na moc nawet o 30 procent, umożliwiając zwiększenie mocy obliczeniowej w tej samej przestrzeni.
Skalowanie w górę, w dół i wszerz
System NVIDIA MGX odgrywa również rolę w skalowaniu centrów danych. Gilad Shainer, wiceprezes ds. sieci w NVIDIA, informuje, że szafy MGX obsługują zarówno komponenty obliczeniowe, jak i przełączające, wspierając NVLink dla łączności w górę i Spectrum-X Ethernet dla wzrostu w poziomie. MGX może łączyć ze sobą wiele centrów danych AI jako jednolity system – co jest potrzebne firmom takim jak Meta do obsługi masowych, rozproszonych operacji trenowania AI. W zależności od odległości, można łączyć lokalizacje za pomocą ciemnych włókien lub dodatkowych przełączników opartych na MGX, umożliwiając szybkie połączenia między regionami.
Ekosystem AI w rozkwicie
NVIDIA postrzega Spectrum-X jako sposób na zwiększenie efektywności i dostępności infrastruktury AI w różnych skalach. Platforma Ethernet została zaprojektowana specjalnie dla obciążeń AI, takich jak trenowanie i wnioskowanie, oferując do 95 procent efektywnej przepustowości i przewyższając tradycyjny Ethernet. Partnerstwa NVIDIA z firmami takimi jak Cisco, xAI, Meta i Oracle Cloud Infrastructure pomagają wprowadzić Spectrum-X do szerszego zakresu środowisk – od hiperskalowych po korporacyjne.
Przyszłość z Vera Rubin i dalsze plany
NVIDIA spodziewa się, że nadchodząca architektura Vera Rubin będzie dostępna komercyjnie w drugiej połowie 2026 roku, a produkt Rubin CPX pojawi się pod koniec roku. Obydwa będą współpracować z sieciami Spectrum-X i systemami MGX, aby wspierać następną generację fabryk AI. Spectrum-X i XGS współdzielą to samo podstawowe wyposażenie ale używają różnych algorytmów dla odmiennych odległości – Spectrum-X wewnątrz centrów danych, a XGS do komunikacji między nimi. minimalizując opóźnienia i pozwalając na operowanie wieloma lokacjami jako jeden superkomputer AI.
Współpraca w całym łańcuchu zasilania
Aby wesprzeć przejście na zasilanie prądem stałym o napięciu 800 V, NVIDIA współpracuje z partnerami – od poziomu chipu po sieć energetyczną. Firma współpracuje z Onsemi i Infineon w zakresie komponentów zasilania, z Delta, Flex i Lite-On na poziomie szafy oraz z Schneider Electric i Siemens w zakresie projektów centrów danych.
Spectrum-X: klucz do wydajności
Spectrum-X Ethernet został zbudowany specjalnie dla rozproszonych obliczeń i obciążeń AI. Oferuje adaptacyjne routowanie i kontrolę przeciążeń opartą na telemetrii, aby eliminować wąskie gardła w sieci i zapewniać stabilną wydajność. Funkcje te umożliwiają wyższe prędkości trenowania i wnioskowania, umożliwiając jednoczesne uruchamianie wielu obciążeń bez zakłóceń. Spectrum-X to jedyna technologia Ethernet, która skaluje się na tak wysokim poziomie, pomagając organizacjom w uzyskaniu najlepszej wydajności i zwrotu z inwestycji w GPU. Dla hiperskalowych firm, takich jak Meta, ta skalowalność pomaga zarządzać rosnącymi wymaganiami dotyczącymi trenowania AI i utrzymać wydajność infrastruktury.
NVIDIA inwestuje w jądra FP4, ramy takie jak Dynamo i TensorRT-LLM oraz algorytmy takie jak spekulatywne dekodowanie, aby poprawić przepustowość i wydajność modeli AI. Aktualizacje te zapewniają, że systemy takie jak Blackwell stale przynoszą lepsze wyniki firmom takim jak Meta, które polegają na spójnej wydajności AI. Platforma Spectrum-X, obejmująca przełączniki Ethernet i SuperNIC, jest pierwszym systemem Ethernet firmy NVIDIA, zaprojektowanym specjalnie dla obciążeń AI. Został zaprojektowany, aby wydajnie łączyć miliony GPU, utrzymując stabilną wydajność w centrach danych AI. Dzięki technologii kontroli przeciążeń, osiągającej do 95 procent przepustowości danych, Spectrum-X stanowi znaczący krok naprzód w porównaniu ze standardowym Ethernetem, który zwykle osiąga tylko około 60 procent z powodu kolizji przepływów. Technologia XGS obsługuje również połączenia centrów danych AI na duże odległości, łącząc obiekty w różnych regionach w jednolite „superfabryki AI”. Łącząc pełny stos NVIDIA – GPU, CPU, NVLink i oprogramowanie – Spectrum-X zapewnia stałą wydajność potrzebną do obsługi modeli o bilionach parametrów i następnej fali generatywnych obciążeń AI.