Cisco wkracza do gry o dominację w centrach danych AI: nowy router 8223 ma rozwiązać problem wąskiego gardła infrastruktury
Cisco dołącza do wyścigu o dominację w technologii łączenia centrów danych AI, prezentując router 8223 – sprzęt stworzony do łączenia rozproszonych obciążeń AI w różnych lokalizacjach. Rywalizacja na tym polu staje się coraz bardziej zacięta, a Cisco, prezentując swoje rozwiązanie, staje w szranki z takimi graczami jak Broadcom i Nvidia.
Sercem nowego systemu jest innowacyjny chip Silicon One P200, który, zdaniem Cisco, ma być odpowiedzią na palący problem branży AI: jak skalować infrastrukturę, gdy brakuje miejsca i zasobów w jednym centrum danych.
Trójstronna walka o skalowalność
Cisco nie jest jedyną firmą, która dostrzega potencjał rynku rozwiązań dla rozproszonej infrastruktury AI. Broadcom już w sierpniu zaprezentował chipy “Jericho 4” StrataDNX, oferujące przepustowość 51.2 Tb/s. Nvidia odpowiedziała dwa tygodnie później, prezentując sieć Spectrum-XGS. Teraz do gry wkracza Cisco, co zapowiada ostrą rywalizację między trzema gigantami branży.
Problem: AI potrzebuje więcej niż jednego budynku
Skala nowoczesnej infrastruktury AI jest ogromna. Trenowanie dużych modeli językowych i uruchamianie złożonych systemów AI wymaga tysięcy wydajnych procesorów pracujących równocześnie. Generuje to ogromne ilości ciepła i zużywa olbrzymie ilości energii.
Centra danych osiągają limity – nie tylko pod względem dostępnej przestrzeni, ale także mocy, jaką mogą dostarczyć i ciepła, jakie mogą odprowadzić. To wymusza poszukiwanie nowych rozwiązań. Tradycyjne metody skalowania – dodawanie zasobów do pojedynczych systemów lub łączenie większej liczby systemów w jednym obiekcie – okazują się niewystarczające.
Alternatywą jest rozproszenie obciążeń AI pomiędzy wiele centrów danych, zlokalizowanych w różnych miastach, a nawet krajach. Powstaje jednak nowy problem: połączenia między tymi ośrodkami stają się wąskim gardłem.
Dlaczego tradycyjne routery zawodzą?
Obciążenia AI generują specyficzny ruch sieciowy. Trening modeli AI charakteryzuje się gwałtownymi skokami aktywności, po których następują okresy względnego spokoju. Jeśli sieć łącząca centra danych nie jest w stanie obsłużyć tych nagłych zmian, dochodzi do spowolnienia, co oznacza marnowanie cennych zasobów obliczeniowych i, co kluczowe, czasu i pieniędzy.
Tradycyjne routery nie są przystosowane do tego typu obciążeń. Zazwyczaj priorytetem jest albo surowa prędkość, albo zaawansowane zarządzanie ruchem, ale trudno jest osiągnąć oba te cele jednocześnie, zachowując rozsądny pobór mocy. W przypadku łączenia centrów danych AI potrzebne są wszystkie trzy elementy: szybkość, inteligentne buforowanie i efektywność energetyczna.
Odpowiedź Cisco: System 8223
System Cisco 8223 to odejście od uniwersalnych rozwiązań. W kompaktowej obudowie 3RU (rack unit) oferuje 64 porty 800-gigabitowej łączności. Co ważniejsze, może przetwarzać ponad 20 miliardów pakietów na sekundę i obsługiwać przepustowość do 3 eksabajtów na sekundę.
Kluczową cechą systemu jest głębokie buforowanie, umożliwione przez chip P200. Bufory działają jak rezerwuar, który magazynuje dane podczas nagłych skoków aktywności. Gdy trening AI generuje wzmożony ruch, bufory 8223 absorbują te skoki, zapobiegając przeciążeniom sieci, które spowalniałyby pracę klastrów GPU.
Efektywność energetyczna to kolejna zaleta. System 8223, dzięki swojej konstrukcji, osiąga, jak twierdzi Cisco, „wydajność energetyczną zbliżoną do przełączników”, zachowując jednocześnie funkcje routingu. Jest to kluczowe, gdy centra danych już teraz borykają się z problemami związanymi z poborem mocy.
System obsługuje również optykę koherentną 800G, umożliwiając połączenia o zasięgu do 1000 kilometrów między obiektami – co jest niezbędne dla geograficznego rozproszenia infrastruktury AI.
Adopcja w branży i zastosowania w rzeczywistości
Technologię Cisco wdrażają już najwięksi gracze. Microsoft, który wcześnie postawił na Silicon One, wykorzystuje tę architekturę w różnych scenariuszach.
Alibaba Cloud planuje wykorzystać P200 jako fundament do rozbudowy swojej architektury eCore. Lumen również bada możliwości wykorzystania tej technologii w swojej infrastrukturze sieciowej.
Programowalność
Adaptowalność jest kluczowa w infrastrukturze łączenia centrów danych AI. Wymagania sieciowe AI szybko ewoluują, pojawiają się nowe protokoły i standardy. Tradycyjny sprzęt wymaga wymiany lub kosztownych aktualizacji, aby obsługiwać nowe funkcje. Programowalność P200 rozwiązuje ten problem.
Organizacje mogą aktualizować chip, aby obsługiwał nowe protokoły bez wymiany sprzętu. Jest to szczególnie ważne, biorąc pod uwagę, że systemy routingowe stanowią znaczącą inwestycję, a standardy sieciowe AI wciąż się zmieniają.
Kwestie bezpieczeństwa
Łączenie centrów danych oddalonych od siebie o setki kilometrów stwarza wyzwania związane z bezpieczeństwem. System 8223 oferuje szyfrowanie z wykorzystaniem algorytmów odpornych na ataki kwantowe. Integracja z platformami observability Cisco zapewnia szczegółowy monitoring sieci, co ułatwia identyfikację i rozwiązywanie problemów.
Czy Cisco ma szansę w tej walce?
Cisco wkracza na rynek, na którym Broadcom i Nvidia już ugruntowały swoją pozycję. Jednak Cisco ma swoje atuty: długoletnią obecność na rynku sieci korporacyjnych i dostawców usług, dojrzałe portfolio Silicon One oraz relacje z największymi graczami, którzy już korzystają z ich technologii.
System 8223 początkowo obsługuje open-source’owy system SONiC, a w przyszłości planowane jest wsparcie dla IOS XR. Chip P200 będzie dostępny w różnych platformach, w tym w systemach modularnych i portfolio Nexus.
Ta elastyczność może okazać się decydująca, ponieważ organizacje chcą uniknąć uzależnienia od jednego dostawcy, budując rozproszoną infrastrukturę AI.
Czy podejście Cisco stanie się standardem branżowym dla łączenia centrów danych AI, to się okaże. Pewne jest, że problem efektywnego łączenia rozproszonej infrastruktury AI będzie narastał wraz z rozwojem systemów AI.
Ostatecznym zwycięzcą może okazać się ten, kto zaoferuje najbardziej kompletny ekosystem oprogramowania, wsparcia i możliwości integracji wokół swoich rozwiązań.