Amazon rzuca rękawicę Nvidii: Byliśmy w tajnym laboratorium, gdzie powstaje Trainium
Architektura niezależności
W sercu Austin, w dzielnicy The Domain, Amazon rozwija technologię, która może trwale zmienić układ sił w sektorze sztucznej inteligencji. Choć branża przyzwyczaiła się do niemal absolutnego monopolu Nvidii, inżynierowie AWS od lat konsekwentnie budują własny ekosystem krzemowy. Ostatnie ogłoszenie gigantycznej inwestycji o wartości 50 miliardów dolarów w OpenAI, w ramach której Amazon dostarczy 2 gigawaty mocy obliczeniowej opartej na układach Trainium, to jasny sygnał, że autorskie czipy przestały być jedynie ciekawostką, a stały się krytycznym zasobem strategicznym.
Laboratorium projektowe AWS nie przypomina sterylnych hal produkcyjnych TSMC. To raczej miejsce, gdzie teoria spotyka się z brutalną praktyką inżynierską. To tutaj odbywa się tzw. „bring-up” – kluczowy moment, w którym nowo zaprojektowany krzem po raz pierwszy otrzymuje zasilanie. Dla zespołu Kristophera Kinga to rytuał trwający nieprzerwanie przez kilka tygodni, często wymagający improwizacji. Gdy prototyp Trainium3 nie pasował do radiatorów, inżynierowie chwycili za szlifierki w sali konferencyjnej, byle tylko nie opóźnić testów. Ta determinacja wynika z prostego rachunku: zapotrzebowanie na układy Amazonu przewyższa obecnie moce przerobowe firmy.
Od Claude’a do Frontier: Krzemowy poligon
Sukces Trainium w dużej mierze opiera się na partnerstwie z Anthropic. Model Claude operuje obecnie na ponad milionie jednostek Trainium2, co pozwoliło Amazonowi udowodnić, że ich architektura radzi sobie z najbardziej wymagającymi obciążeniami. Teraz do gry wkracza OpenAI. Umowa czyni AWS wyłącznym dostawcą dla nowego kreatora agentów AI o nazwie Frontier. Ruch ten budzi jednak kontrowersje na linii Microsoft-OpenAI, sugerując, że przewaga sprzętowa i kosztowa Amazonu staje się zbyt kusząca, by ją ignorować, nawet kosztem dotychczasowych sojuszy.
Kluczowym aspektem nowej generacji czipów jest zmiana ich przeznaczenia. Pierwotnie projektowane do trenowania modeli, układy Trainium są dziś optymalizowane pod kątem inferencji – procesu generowania odpowiedzi przez AI, który stanowi obecnie największe wąskie gardło wydajnościowe i kosztowe. Amazon deklaruje, że dzięki zastosowaniu serwerów Trn3 UltraServer, koszty operacyjne mogą być o 50% niższe w porównaniu z tradycyjną infrastrukturą chmurową. W dobie przetwarzania bilionów tokenów dziennie, taka marża staje się dla gigantów AI kwestią przetrwania.
Przełamywanie barier oprogramowania
Największą przeszkodą w detronizacji Nvidii nie był dotąd sam sprzęt, lecz ekosystem oprogramowania. Twórcy modeli przez lata byli „uwięzieni” w architekturze CUDA. Amazon próbuje jednak rozbić te mury, stawiając na kompatybilność z otwartymi standardami. Dzięki wsparciu dla PyTorch, przejście na Trainium ma wymagać od programistów zaledwie jednej zmiany w linii kodu i ponownej kompilacji. To agresywna strategia „one-line change”, mająca na celu masowe przejmowanie projektów hostowanych na platformach takich jak Hugging Face.
Innowacje nie kończą się na samym krzemie. Nowe systemy chłodzenia cieczą, dedykowane przełączniki Neuron umożliwiające bezpośrednią komunikację między tysiącami czipów w architekturze mesh oraz autorskie karty sieciowe Nitro, tworzą zamknięty, wertykalnie zintegrowany system. To klasyczny scenariusz Amazonu: zidentyfikować rynkową potrzebę, a następnie zbudować własną, tańszą i skalowalną alternatywę.
Przyszłość w cieniu gigantycznych klastrów
Obecnie trzon potęgi AWS stanowi Project Rainier – jeden z największych na świecie klastrów obliczeniowych AI, oparty na 500 tysiącach jednostek Trainium2. Ale to dopiero początek. Trainium3, produkowany w procesie 3 nm, ma podnieść poprzeczkę jeszcze wyżej. Andy Jassy, CEO Amazonu, już teraz określa ten segment mianem wielomiliardowego biznesu, stawiając go na równi z fundamentami takimi jak EC2.
Choć OpenAI i Anthropic dominują w nagłówkach, ciche uznanie nadeszło z najmniej spodziewanej strony. Nawet Apple, znane ze swojej obsesji na punkcie kontroli nad sprzętem, przyznało publicznie, że wykorzystuje procesory Graviton oraz układy Inferentia od AWS. To ostateczny dowód na to, że w wyścigu o dominację w erze AI, kontrola nad fizycznym krzemem staje się tak samo ważna, jak same algorytmy.
