LLMR & D

Kolejny przełom w AI: IBM i ETH Zürich prezentują analogowe modele fundamentalne odporne na zakłócenia

Sztuczna inteligencja nieustannie ewoluuje, a wraz z nią rosną wymagania dotyczące mocy obliczeniowej i efektywności energetycznej. Nowe rozwiązanie opracowane przez IBM we współpracy z ETH Zürich – Analog Foundation Models (AFM) – stanowi potencjalny przełom w tej dziedzinie. Modele te mają za zadanie zniwelować lukę między ogromnymi modelami językowymi (LLM) a sprzętem Analog In-Memory Computing (AIMC).

AIMC od dawna jawi się jako rewolucja w dziedzinie efektywności. Technologia ta, dzięki gęstej pamięci nieulotnej (NVM), która łączy przechowywanie i przetwarzanie danych, obiecuje uruchamianie modeli z miliardami parametrów na urządzeniach o niewielkich rozmiarach, idealnych do zastosowań wbudowanych czy na brzegu sieci. Piętą achillesową tej technologii były jednak zakłócenia – wykonywanie operacji mnożenia macierzy przez wektor bezpośrednio wewnątrz NVM skutkuje losowymi błędami, które uniemożliwiają poprawne działanie standardowych modeli.

Dlaczego obliczenia analogowe są ważne dla LLM?

W przeciwieństwie do GPU lub TPU, które przesyłają dane między pamięcią a jednostkami obliczeniowymi, AIMC wykonuje mnożenie macierzy przez wektor bezpośrednio wewnątrz matryc pamięci. Taka architektura eliminuje tzw. wąskie gardło von Neumanna, co przekłada się na ogromny wzrost przepustowości i efektywności energetycznej. Badania wskazują, że połączenie AIMC z trójwymiarową pamięcią NVM i architekturami Mixture-of-Experts (MoE) mogłoby teoretycznie obsługiwać modele z bilionami parametrów na kompaktowych akceleratorach. To z kolei mogłoby uczynić AI na poziomie modeli fundamentalnych osiągalną na urządzeniach wykraczających poza centra danych.

Kluczowe wyzwanie: szumy i zakłócenia

Największą przeszkodą w praktycznym zastosowaniu AIMC są zakłócenia. Obliczenia analogowe są podatne na zmienność urządzeń, kwantyzację DAC/ADC i fluktuacje w czasie działania, co obniża dokładność modeli. W przeciwieństwie do kwantyzacji na GPU, gdzie błędy są deterministyczne i łatwe do opanowania, szumy analogowe są stochastyczne i nieprzewidywalne. Wcześniejsze badania wykazały, że małe sieci, takie jak CNN i RNN (poniżej 100 milionów parametrów), można przystosować do tolerowania takich zakłóceń, ale LLM z miliardami parametrów konsekwentnie ulegały awarii w warunkach AIMC.

Analog Foundation Models: odpowiedź na problem zakłóceń

Zespół IBM wprowadza Analog Foundation Models, które integrują uczenie uwzględniające specyfikę sprzętu, aby przygotować LLM do wykonywania obliczeń analogowych. Ich metodologia obejmuje:

  • Wstrzykiwanie szumów podczas uczenia, aby symulować losowość AIMC.
  • Iteracyjne obcinanie wag, aby ustabilizować rozkłady w granicach możliwości urządzenia.
  • Uczenie statycznych zakresów kwantyzacji wejścia/wyjścia, dostosowanych do rzeczywistych ograniczeń sprzętowych.
  • Destylację z wstępnie wytrenowanych LLM przy użyciu 20 miliardów tokenów danych syntetycznych.

Te metody, zaimplementowane za pomocą AIHWKIT-Lightning, pozwalają modelom takim jak Phi-3-mini-4k-instruct i Llama-3.2-1B-Instruct utrzymać wydajność porównywalną z 4-bitową kwantyzacją wag / 8-bitową aktywacją w warunkach szumów analogowych. W ocenach porównawczych dotyczących rozumowania i benchmarków faktograficznych, AFM wypadły lepiej niż uczenie z uwzględnieniem kwantyzacji (QAT) i kwantyzacja po treningu (SpinQuant).

Uniwersalne zastosowanie modeli AFM

AFM, co zaskakujące, działają również dobrze na sprzęcie cyfrowym o niskiej precyzji. Ponieważ są one szkolone do tolerowania szumów i obcinania wartości, radzą sobie z prostą kwantyzacją RTN (round-to-nearest) lepiej niż istniejące metody. To sprawia, że są one przydatne nie tylko dla akceleratorów AIMC, ale także dla komercyjnego sprzętu do wnioskowania cyfrowego.

Skalowalność wydajności

Naukowcy przetestowali skalowanie obliczeniowe w czasie wnioskowania na benchmarku MATH-500, generując wiele odpowiedzi na zapytanie i wybierając najlepszą za pomocą modelu nagradzającego. AFM wykazały lepsze skalowanie niż modele QAT, a różnice w dokładności zmniejszały się wraz z przydzielaniem większej mocy obliczeniowej na wnioskowanie. Jest to zgodne z mocnymi stronami AIMC – niski pobór mocy i wysoka przepustowość wnioskowania, a nie uczenia.

Przyszłość analogowego obliczania w pamięci

Zespół badawczy dostarcza pierwszą systematyczną demonstrację, że duże LLM można przystosować do sprzętu AIMC bez katastrofalnej utraty dokładności. Chociaż trenowanie AFM jest zasobochłonne, a zadania wymagające rozumowania, takie jak GSM8K, nadal wykazują luki w dokładności, wyniki są przełomowe. Połączenie efektywności energetycznej, odporności na szumy i kompatybilności krzyżowej ze sprzętem cyfrowym sprawia, że AFM stanowią obiecujący kierunek dla skalowania modeli fundamentalnych poza granice GPU. Otwiera to drogę do energooszczędnych modeli na dużą skalę, uruchamianych na kompaktowym sprzęcie, przybliżając nas do wdrażania modeli fundamentalnych na brzegu sieci.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *