Google Cloud wprowadza TPU Ironwood i instancje Axion. 10× skok wydajności i nowe opcje Arm
Google Cloud ogłosił Ironwood, siódmą generację własnych akceleratorów TPU, oraz nowe instancje obliczeniowe Axion. Debiut jest wymierzony w laboratoria AI, platformy SaaS i firmy, które przesuwają budżety z treningu na masową inferencję. Producent zapowiada istotny skok wydajności i lepszą ekonomikę działania całego stosu – od krzemowych układów, przez sieć i chłodzenie, po narzędzia do serwowania modeli.
Ironwood: parametry i skok wydajności
Ironwood ma oferować 10× wyższą wydajność szczytową względem TPU v5p oraz ponad 4× lepszą wydajność na układ (zarówno w treningu, jak i inferencji) w porównaniu z TPU v6e (Trillium). Układ został zaprojektowany pod duże treningi, złożone zadania reinforcement learning oraz serwowanie modeli przy wysokiej przepustowości i niskich opóźnieniach.
Skala: pody do 9 216 chipów i pamięć współdzielona
Pojedynczy pod może łączyć do 9 216 układów za pomocą łącza Inter-Chip Interconnect o przepustowości 9,6 Tb/s i udostępniać łącznie 1,77 PB pamięci HBM. Zastosowano optyczne przełączanie obwodów, co pozwala omijać uszkodzenia bez wyłączania całości, a klastry mogą łączyć wiele podów. Według Google, na poziomie poda Ironwood zapewnia 118× więcej FP8 ExaFLOPS niż „następny konkurent”, co sugeruje dużą pojemność do obsługi modeli granicznych. To jednak deklaracje producenta – porównywalność takich wskaźników zależy od konfiguracji i metodyki testów.
Stos programowo-sprzętowy: krótszy czas do pierwszego tokenu
Google akcentuje współprojektowanie układów i oprogramowania. W MaxText pojawiły się ścieżki SFT i GRPO, a wsparcie dla vLLM umożliwia zespołom relatywnie łatwe przełączanie się między GPU i TPU przy minimalnych zmianach konfiguracji. GKE Inference Gateway ma skracać czas do pierwszego tokenu nawet o 96% i zmniejszać koszty serwowania do 30% – co ma znaczenie, gdy wydatki przesuwają się z treningu na długotrwałą inferencję na produkcji.
Wczesne sygnały z rynku
Wstępne informacje obejmują plany Anthropic dotyczące dostępu nawet do 1 mln TPU, a także deklarowane przez Lightricks poprawy jakości w generatywnych narzędziach wideo i obrazu. Po stronie Axion: Vimeo raportuje około 30% lepszą wydajność transkodowania, ZoomInfo około 60% korzyści cenowo-wydajnościowych, a Rise redukcję zapotrzebowania na moc obliczeniową o około 20%. To case studies dostarczone przez producenta i warto je weryfikować w szerszych, niezależnych testach.
Axion na Arm: N4A w podglądzie, C4A metal w drodze
Axion N4A to wirtualne maszyny oparte na Arm, optymalizowane pod relację ceny do wydajności, już dostępne w podglądzie. Konfiguracje sięgają 64 vCPU, 512 GB pamięci DDR5 i 50 Gb/s łączności. C4A metal (bare metal na Arm) ma wejść w podgląd wkrótce i jest kierowany do budowy hiperwizorów, natywnego developmentu na Arm oraz dużych farm testowych.
Zaplecze infrastrukturalne i niezawodność
Google podkreśla dekadę inwestycji w własne układy: od TPU, przez układy VCU dla YouTube, po pięć generacji Tensorów w urządzeniach konsumenckich. Pierwsza TPU powstała jeszcze przed erą Transformerów. Dzisiejsze deklaracje dotyczące kosztów, skali i niezawodności opierają się m.in. na magazynie Titanium, zaawansowanym chłodzeniu cieczą w skali gigawatów oraz dostępności floty na poziomie ok. 99,999% od 2020 r. Jak zwykle w takich premierach, kluczowe dla oceny TCO i realnej przewagi będą jednak pomiary w docelowych obciążeniach.
Dostępność
Ironwood ma trafić do ogólnej dostępności w najbliższych tygodniach. Axion N4A jest już w podglądzie, a Axion C4A metal wejdzie do podglądu wkrótce. Google pozycjonuje te nowości jako element spójnej platformy „AI Hypercomputer”, która ma łączyć krzem, sieć, chłodzenie i oprogramowanie w jeden, skalowalny stos dla treningu i inferencji.
