HardwareTechnologia

Infrastruktura AI: klucz do inteligentnego skalowania, nie brutalnej mocy

Pierwsze projekty pilotażowe z wykorzystaniem AI rzadko koncentrują się na infrastrukturze. Niemniej, doświadczeni eksperci z branży IT ostrzegają, że brak starannego planowania i ciągłego optymalizowania podstaw sprzętowych może zniweczyć nawet najbardziej obiecujące wdrożenia produkcyjne. Rosnące nakłady finansowe na hardware AI są tego najlepszym dowodem. Według IDC, w 2025 roku wydatki na sprzęt obliczeniowy i magazynowy, przeznaczony dla AI, wzrosły o 97% w porównaniu do roku poprzedniego, a globalne inwestycje w sektorze mają wzrosnąć ze 150 miliardów dolarów obecnie do 200 miliardów do roku 2028. Jednak, jak trafnie zauważa John Thompson, autor bestsellerów o AI i szef praktyki doradztwa genAI w The Hackett Group, przewagę konkurencyjną zyskują ci, którzy skalują najinteligentnej, nie ci, którzy wydają najwięcej.

Infrastruktura AI: krytyczny fundament – ignorowanie na własne ryzyko

Eksperci są zgodni: bez precyzyjnego planowania i optymalizacji infrastruktury, przedsiębiorstwa mają znikome szanse na rozszerzenie i uprzemysłowienie obciążeń AI. Mowa tu o starannie skoordynowanej sieci procesorów i akceleratorów, a także o zmodernizowanych systemach zasilania i chłodzenia. Te wyspecjalizowane komponenty sprzętowe zapewniają niezbędną szybkość, dostępność, elastyczność i skalowalność, radząc sobie z bezprecedensową ilością, ruchem i prędkością danych – od urządzeń brzegowych, poprzez centra danych, aż po chmurę.

Wiele badań wskazuje na problemy związane z infrastrukturą, takie jak wąskie gardła wydajności, niedopasowany sprzęt czy słaba integracja z istniejącymi systemami, jako główne przyczyny niepowodzeń projektów pilotażowych. Rosnące zainteresowanie i inwestycje w agentowe systemy AI dodatkowo podnoszą stawkę technologiczną, konkurencyjną i finansową. Niemal połowa firm technologicznych już realizuje projekty AI oparte na agentach, a reszta planuje je w ciągu najbliższych dwóch lat. Co więcej, aż 50% lub więcej bieżących budżetów na AI jest przeznaczane na te właśnie systemy. Jest to zrozumiałe, biorąc pod uwagę, że złożone, autonomiczne systemy AI wymagają drogich i rzadkich jednostek GPU i TPU do niezależnego i rzeczywistego działania na wielu platformach.

Liderzy technologiczni i biznesowi, czerpiąc z doświadczeń projektów pilotażowych, doskonale rozumieją, że wymagania stawiane przez obciążenia AI – w tym szybkie przetwarzanie, sieciowanie, przechowywanie, orkiestracja i olbrzymie zapotrzebowanie na energię elektryczną – są odmienne od wszystkiego, co budowali do tej pory na dużą skalę. Dla wielu firm kluczowe pytanie brzmi: czy jesteśmy gotowi na to wyzwanie? Uczciwa odpowiedź to: nie bez starannej, ciągłej analizy, planowania i prawdopodobnie, znaczących inwestycji w modernizację IT.

Przeskalowane góry AI: Ucz się od tych, którzy odnieśli sukces

Projekty AI, podobnie jak płatki śniegu, są podobne, ale jednocześnie unikalne. Wymagania różnią się drastycznie między poszczególnymi funkcjami i typami AI (szkolenie vs. wnioskowanie, uczenie maszynowe vs. wzmacnianie). Podobnie, duże różnice występują w celach biznesowych, budżetach, długu technologicznym, uzależnieniu od dostawców oraz dostępnych umiejętnościach. Stąd też, z oczywistych względów, nie ma jednej „najlepszej” metody. W zależności od okoliczności, infrastrukturę AI można skalować w górę (większa moc dla zwiększonych obciążeń), w dół (mniejsza moc dla zmniejszonych obciążeń), na zewnątrz (modernizacja istniejącego sprzętu) lub w sposób hybrydowy (połączenie kilku podejść).

Mimo to, pewne wczesne założenia, zasady, rekomendacje, praktyki, przykłady z życia wzięte oraz sposoby na oszczędność mogą pomóc utrzymać projekty w odpowiednim kierunku. Jest to złożone wyzwanie, obejmujące wiele warstw: dane, oprogramowanie, sieci, bezpieczeństwo i przechowywanie. Przyjrzyjmy się temu zagadnieniu na wysokim poziomie.

Modernizacja wizji infrastruktury AI

Największa zmiana w sposobie myślenia o AI polega na jej nowej koncepcji – nie jako samodzielnej czy też wyizolowanej aplikacji, lecz jako fundamentalnej zdolności lub platformy wbudowanej w procesy biznesowe, przepływy pracy i narzędzia. Aby to było możliwe, infrastruktura musi równoważyć dwie istotne role: zapewnienie stabilnej, bezpiecznej i zgodnej z przepisami podstawy dla przedsiębiorstwa, jednocześnie umożliwiając szybkie i niezawodne wdrażanie wyspecjalizowanych obciążeń i aplikacji AI. Często dzieje się to z wykorzystaniem sprzętu zoptymalizowanego pod konkretne dziedziny, takie jak przetwarzanie języka naturalnego (NLP) i uczenie wzmacniające.

Deb Golden, dyrektor ds. innowacji w Deloitte, podkreśla, że jest to zasadnicza zmiana ról. „AI musi być traktowana jak system operacyjny, z infrastrukturą, która się do niej dostosowuje, a nie na odwrót.” Kontynuuje: „Przyszłość to nie tylko zaawansowane modele i algorytmy. Sprzęt nie jest już bierny. Od teraz infrastruktura polega fundamentalnie na orkiestracji inteligentnego sprzętu jako systemu operacyjnego dla AI.”

Działanie na taką skalę, bez marnotrawstwa, wymaga „płynnej struktury” – termin Golden na dynamiczną alokację, która adaptuje się w czasie rzeczywistym na każdej platformie, od pojedynczych chipów krzemowych po kompletne obciążenia. Korzyści mogą być ogromne: jej zespół odkrył, że takie podejście może obniżyć koszty o 30-40% i opóźnienia o 15-20%. „Jeśli twoja AI nie oddycha z obciążeniem, dusi się.”

To wymagające wyzwanie. Taka infrastruktura AI musi być wielowarstwowa, natywna dla chmury, otwarta, działająca w czasie rzeczywistym, dynamiczna, elastyczna i modułowa. Musi być wysoce i inteligentnie orkiestrowana na urządzeniach brzegowych i mobilnych, w lokalnych centrach danych, na komputerach i stacjach roboczych AI, oraz w środowiskach chmurowych hybrydowych i publicznych.

To, co brzmi jak słownictwo z bingo, reprezentuje nową epokę w ciągłej ewolucji, redefiniując i optymalizując korporacyjną infrastrukturę IT dla AI. Główne elementy są dobrze znane: środowiska hybrydowe, szybko rosnąca liczba coraz bardziej wyspecjalizowanych usług, ram i platform opartych na chmurze.

W tym nowym rozdziale, kluczowe dla długoterminowego sukcesu jest przyjęcie modułowości architektonicznej, jak twierdzi Ken Englund, lider wzrostu technologicznego EY Americas. „Twoja zdolność do integrowania różnych narzędzi, agentów, rozwiązań i platform będzie kluczowa. Modułowość tworzy elastyczność w twoich ramach i architekturach.” Rozdzielanie komponentów systemów pomaga zabezpieczyć przyszłość na wiele sposobów, w tym poprzez agnostycyzm wobec dostawców i technologii, ulepszanie modeli typu „plug-and-play” oraz ciągłe innowacje i skalowalność.

Inwestycje w infrastrukturę AI – balans między rozwagą a mocą

Zespoły technologiczne stoją przed wyzwaniem znalezienia „złotego środka” w inwestycjach w nowoczesną infrastrukturę, która sprosta szybko rosnącym i zmieniającym się wymaganiom rozproszonej, wszechobecnej AI. Zbyt małe inwestycje lub trzymanie się obecnych możliwości przetwarzania prowadzą do krytycznych wąskich gardeł wydajności i słabych wyników biznesowych, które mogą pogrążyć całe projekty. Z drugiej strony, nadmierne inwestowanie w nową infrastrukturę AI to ogromne wydatki kapitałowe i operacyjne, nieużywane zasoby i niepotrzebna złożoność operacyjna.

Doświadczeni eksperci zgodnie twierdzą, że samo „rzucanie” mocy obliczeniowej na problemy niezwiązane z AI nie jest strategią sukcesu. Niestety, wciąż pozostaje to kuszącą opcją, nawet jeśli niezamierzoną. Mine Bayrak Ozmen, weteran transformacji i współzałożycielka firmy Riernio, zajmującej się platformami AI, zauważa, że „zadania o minimalnych potrzebach AI często są kierowane na kosztowną infrastrukturę GPU lub TPU.” Dzieje się tak, jak ironicznie dodaje Ozmen, „po prostu dlatego, że wybory projektowe zorientowane na AI wyprzedziły bardziej klasyczne zasady organizacyjne.” Niestety, długoterminowe nieefektywności kosztowe takich wdrożeń mogą być maskowane przez głębokie zniżki od dostawców sprzętu.

Dopasowanie infrastruktury AI: znaczenie zakresu i dystrybucji, nie surowej mocy

Co powinno zatem kierować strategicznymi i taktycznymi wyborami? Eksperci zgodzili się, że nie powinno to być paradoksalnie błędne rozumowanie: skoro infrastruktura dla AI musi zapewniać ultrawysoką wydajność, mocniejsze procesory i sprzęt muszą być lepsze. „Skalowanie AI to nie brutalna siła obliczeniowa” – powiedział Thompson, który prowadził wiele dużych globalnych projektów AI. Podkreśla on, że celem jest posiadanie odpowiedniego sprzętu we właściwym miejscu i w odpowiednim czasie, a nie największego i najbardziej zaawansowanego sprzętu wszędzie.

Według Ozmen, udani skalujący stosują podejście „odpowiedni rozmiar dla odpowiedniego wykonania”. Oznacza to „optymalizację rozmieszczenia obciążeń (wnioskowanie vs. uczenie), zarządzanie lokalnością kontekstową oraz wykorzystanie orkiestracji opartej na politykach w celu zmniejszenia redundancji, poprawy obserwowalności i napędzania zrównoważonego wzrostu”. Czasami analiza i decyzja są proste, bez zbędnych analiz. „System generatywnej AI obsługujący 200 pracowników może działać dobrze na jednym serwerze” – powiedział Thompson. Ale zupełnie inaczej wygląda sytuacja w przypadku bardziej złożonych inicjatyw.

Weźmy na przykład podstawowy system korporacyjny z obsługą AI dla setek tysięcy użytkowników na całym świecie, wymagający natywnego przełączania awaryjnego w chmurze i poważnych możliwości skalowania. W takich przypadkach, jak stwierdził Thompson, dopasowanie infrastruktury wymaga zdyscyplinowanych, rygorystycznych ćwiczeń w zakresie definiowania zakresu, dystrybucji i skalowania. Wszystko inne jest lekkomyślnym niedbalstwem.

Co zaskakujące, tak podstawowa dyscyplina planowania IT bywa pomijana. To często firmy, desperacko dążące do uzyskania przewagi konkurencyjnej, próbują przyspieszyć działania, przeznaczając przesadzone budżety infrastrukturalne na kluczowy projekt AI. Nowe badania Hackett podważają niektóre podstawowe założenia dotyczące tego, co jest naprawdę potrzebne w infrastrukturze do skalowania AI, dostarczając dodatkowych powodów do przeprowadzenia rygorystycznej analizy wstępnej.

Praktyczne doświadczenie Thompsona jest pouczające. Budując system obsługi klienta AI dla ponad 300 000 użytkowników, jego zespół szybko zdał sobie sprawę, że „ważniejsze jest posiadanie globalnego zasięgu niż ogromnej pojemności w jednej lokalizacji”. W związku z tym, infrastruktura jest rozmieszczona w USA, Europie i regionie Azji i Pacyfiku; użytkownicy są dynamicznie przekierowywani na całym świecie. Praktyczna rada: „Stawiaj granice. Czy to 300 000 użytkowników, czy 200? Zakres dyktuje infrastrukturę” – podsumował.

Właściwy sprzęt, we właściwym miejscu, do właściwego zadania

Nowoczesna, wielowarstwowa strategia infrastruktury AI opiera się na wszechstronnych procesorach i akceleratorach, które można zoptymalizować pod kątem różnych ról w całym spektrum zastosowań. Aby uzyskać pomocne wskazówki dotyczące wyboru procesorów, warto zapoznać się z artykułem „Poza GPU”.

Pozyskiwanie infrastruktury do skalowania AI: Usługi chmurowe dla większości

Posiadając odświeżoną wizję tego, czym może i powinna być infrastruktura do skalowania AI, a także dobrą orientację w optymalnym zakresie inwestycji i potrzebach w poszczególnych obszarach, czas przejść do kwestii zaopatrzenia. Jak zauważono w ostatnim wydaniu VentureBeat, dla większości przedsiębiorstw najskuteczniejszą strategią będzie dalsze korzystanie z infrastruktury i sprzętu opartego na chmurze w celu skalowania produkcji AI.

Badania wśród dużych organizacji pokazują, że większość z nich przeszła z niestandardowych, lokalnych centrów danych na publiczne platformy chmurowe i gotowe rozwiązania AI. Dla wielu oznacza to kolejny krok w trwającej modernizacji, pozwalający uniknąć dużych początkowych nakładów kapitałowych i problemów z pozyskiwaniem talentów, jednocześnie zapewniając kluczową elastyczność w obliczu szybko zmieniających się wymagań.

W ciągu najbliższych trzech lat, Gartner przewiduje, że 50% zasobów obliczeniowych w chmurze zostanie przeznaczonych na obciążenia AI, w porównaniu do mniej niż 10% obecnie. Niektóre przedsiębiorstwa modernizują również lokalne centra danych, wyposażając je w przyspieszone obliczenia, szybszą pamięć i szybkie sieci. Dobra wiadomość: Amazon, AWS, Microsoft, Google i rozwijający się świat wyspecjalizowanych dostawców nadal inwestują oszałamiające sumy w kompleksowe oferty budowane i optymalizowane pod kątem AI, w tym kompletną infrastrukturę, platformy, przetwarzanie (w tym dostawcy chmury GPU, HPC), pamięć masową (hipersklerzy plus Dell, HPE, Hitachi Vantara), frameworki i niezliczone inne usługi zarządzane.

Zwłaszcza dla organizacji, które chcą szybko rozpocząć pracę z AI, usługi chmurowe oferują doskonały, bezproblemowy wybór, jak twierdzi Wyatt Mayham, wiodący konsultant AI w Northwest AI Consulting. W firmie korzystającej już np. z Microsoftu, „Azure OpenAI jest naturalnym rozszerzeniem, które wymaga niewielkiej architektury, aby bezpiecznie i zgodnie z przepisami działać” – powiedział. „Pozwala to uniknąć złożoności związanej z uruchamianiem niestandardowej infrastruktury LLM, jednocześnie zapewniając firmom bezpieczeństwo i kontrolę, których potrzebują. To świetny, szybki sukces.”

Jednak obfitość opcji dostępnych dla decydentów technologicznych ma też drugą stronę. Wybór odpowiednich usług może być zniechęcający, zwłaszcza gdy coraz więcej przedsiębiorstw decyduje się na podejścia wielochmurowe, obejmujące wielu dostawców. Problemy z kompatybilnością, spójnym bezpieczeństwem, odpowiedzialnością, poziomami usług i wymaganiami dotyczącymi zasobów lokalnych mogą szybko stać się skomplikowaną siecią, spowalniającą rozwój i wdrażanie.

Aby uprościć sprawy, organizacje mogą zdecydować się na trzymanie się jednego lub dwóch głównych dostawców. Tutaj, podobnie jak w przypadku hostingu w chmurze przed erą AI, pojawia się ryzyko uzależnienia od dostawcy (chociaż otwarte standardy oferują możliwość wyboru). Nad tym wszystkim unosi się widmo przeszłych i niedawnych prób migracji infrastruktury do płatnych usług chmurowych, tylko po to, by z przerażeniem odkryć, że koszty znacznie przewyższają pierwotne oczekiwania. Wszystko to wyjaśnia, dlaczego eksperci twierdzą, że dyscyplina IT 101, polegająca na jak najjaśniejszym określeniu potrzebnej wydajności i pojemności – na urządzeniach brzegowych, lokalnie, w aplikacjach chmurowych, wszędzie – jest kluczowa przed rozpoczęciem zakupu.

Nowe spojrzenie na infrastrukturę lokalną

Przekonanie, że obsługa infrastruktury we własnym zakresie jest zarezerwowana głównie dla zamożnych przedsiębiorstw i branż silnie regulowanych, przestaje być aktualne. W nowym rozdziale rozwoju AI, kluczowe elementy infrastruktury lokalnej są ponownie oceniane, często jako część hybrydowej strategii optymalizacji. Przykładem jest Microblink, dostawca usług skanowania dokumentów i weryfikacji tożsamości opartych na AI. Firma ta, korzystając z Google Cloud Platform (GCP) do obsługi intensywnych obciążeń ML i aplikacji wymagających dużej ilości danych, szybko napotkała problemy z kosztami i skalowalnością, jak zauważył Filip Suste, kierownik zespołu platformy. „Dostępność GPU była ograniczona, nieprzewidywalna i droga” – dodał.

Aby rozwiązać te problemy, zespoły Suste podjęły strategiczną decyzję o przeniesieniu obciążeń obliczeniowych i wspierającej infrastruktury do własnego centrum danych. Kluczowym elementem przejścia na hybrydę był wysokowydajny, natywny dla chmury system przechowywania obiektów MinIo. Dla Microblink, przeniesienie kluczowej infrastruktury z powrotem do firmy opłaciło się. Zmniejszyło to związane z tym koszty o 62%, zredukowało niewykorzystaną pojemność i poprawiło efektywność szkolenia, jak podała firma. Co najważniejsze, odzyskało również kontrolę nad infrastrukturą AI, poprawiając tym samym bezpieczeństwo klientów.

Rozważ specjalistyczne platformy AI

Japoński producent obrabiarek sterowanych komputerowo Makino, działający w 40 krajach, stanął przed klasycznym problemem braku wykwalifikowanych pracowników. Mniej doświadczeni inżynierowie potrzebowali do 30 godzin na wykonanie napraw, które bardziej doświadczeni pracownicy byli w stanie wykonać w osiem. Aby zniwelować tę lukę i poprawić obsługę klienta, kierownictwo firmy zdecydowało się przekształcić dwudziestoletnie dane dotyczące konserwacji w natychmiastowo dostępną wiedzę ekspertów. Najszybszym i najbardziej opłacalnym rozwiązaniem okazała się integracja istniejącego systemu zarządzania serwisem ze specjalistyczną platformą AI dla profesjonalistów serwisowych firmy Aquant.

Firma twierdzi, że pójście na skróty technologiczne przyniosło doskonałe rezultaty. Zamiast mozolnie oceniać różne scenariusze infrastrukturalne, zasoby zostały skierowane na standaryzację leksykonu oraz opracowanie procesów i procedur, wyjaśnił Ken Creech, dyrektor ds. obsługi klienta w Makino. Zdalne rozwiązywanie problemów wzrosło o 15%, czasy rozwiązywania problemów uległy skróceniu, a klienci mają teraz samoobsługowy dostęp do systemu, powiedział Creech. „Teraz nasi inżynierowie zadają pytanie w zrozumiałym języku, a AI szybko znajduje odpowiedź. To duży efekt wow.”

Świadome unikanie kosztów: skuteczne hakowanie wydajności AI

W Albertsons, jednej z największych sieci spożywczych i aptek w USA, zespoły IT stosują kilka prostych, ale skutecznych taktyk optymalizacji infrastruktury AI bez konieczności zakupu nowego sprzętu, jak wyjaśnia Chandrakanth Puligundla, lider technologiczny w dziale analizy danych, inżynierii i zarządzania. Mapowanie grawitacyjne pozwala na przykład śledzić miejsca przechowywania danych i ich ruch – czy to na urządzeniach brzegowych, w systemach wewnętrznych, czy w systemach wielochmurowych. Ta wiedza nie tylko redukuje koszty przekazywania danych i opóźnienia, ale także pomaga w podejmowaniu bardziej świadomych decyzji dotyczących alokacji zasobów obliczeniowych.

Podobnie, jak zauważa Puligundla, używanie wyspecjalizowanych narzędzi AI do przetwarzania języka lub identyfikacji obrazu zajmuje mniej miejsca, często zapewniając lepszą wydajność i ekonomię niż dodawanie lub aktualizowanie droższych serwerów i komputerów ogólnego przeznaczenia.

Innym sposobem na uniknięcie kosztów jest śledzenie zużycia energii na wnioskowanie lub godzinę szkolenia. Spojrzenie poza szybkość i koszt na metryki efektywności energetycznej pozwala priorytetowo traktować zrównoważoną wydajność, co jest kluczowe dla coraz bardziej energochłonnych modeli i sprzętu AI. Puligundla podsumowuje: „Dzięki tego rodzaju świadomym przygotowaniom możemy naprawdę zwiększyć efektywność.”

Napisz własne zakończenie

Sukces projektów pilotażowych AI popchnął miliony firm do kolejnej fazy rozwoju: wdrożenia generatywnych modeli językowych i LLM, agentów oraz innych inteligentnych aplikacji o wysokiej wartości biznesowej do szerszej produkcji. Najnowszy rozdział w dziedzinie AI obiecuje obfite korzyści dla przedsiębiorstw, które strategicznie zbudują infrastrukturę i sprzęt równoważący wydajność, koszty, elastyczność i skalowalność w ramach przetwarzania brzegowego, systemów lokalnych i środowisk chmurowych.

W nadchodzących miesiącach opcje skalowania będą się jeszcze bardziej rozszerzać, ponieważ inwestycje branżowe nadal napływają do centrów danych na dużą skalę, chipów brzegowych i sprzętu, kompleksowej infrastruktury AI w chmurze, pamięci kontekstualnej, bezpiecznych lokalnych urządzeń plug-and-play i wielu innych. To, jak mądrze liderzy IT i biznesu zaplanują i wybiorą infrastrukturę do ekspansji, zadecyduje o tym, kto zostanie bohaterem w historii swojej firmy, a kto będzie skazany na czyściec projektów pilotażowych lub wręcz na potępienie AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *