Amazon testuje nową architekturę AI ze zmienną aktywacją neuronów
Tradycyjne wdrażanie dużych modeli językowych (LLM) i fundamentalnych systemów AI opiera się na aktywowaniu całej sieci neuronowej dla każdego zapytania. Chociaż zapewnia to wszechstronność, prowadzi do znacznej nieefektywności – znaczna część aktywności sieci jest zbędna dla danego zadania. Naukowcy z Amazona, inspirując się ewolucyjną efektywnością ludzkiego mózgu, który elastycznie rekrutuje tylko te obwody, które są potrzebne do danego zadania poznawczego, opracowali architekturę AI naśladującą to zachowanie. Jej klucz do sukcesu leży w aktywowaniu jedynie neuronów najbardziej istotnych dla bieżącego kontekstu wejściowego.
Sercem tej innowacji jest dynamiczne, kontekstowo świadome „przycinanie” sieci. Zamiast statycznego usuwania części modelu podczas trenowania, rozwiązanie Amazona modyfikuje sieć w locie, w trakcie jej działania. Dzięki temu model może pozostać duży i wszechstronny, jednocześnie niezwykle efektywny i szybki w realizacji konkretnych zadań.
Zanim system przetworzy dane wejściowe, ocenia, które neurony lub moduły będą najbardziej użyteczne. Decyzja ta opiera się na takich sygnałach, jak typ zadania (np. tłumaczenie, pisanie tekstów prawniczych, czy pomoc w kodowaniu), język oraz inne cechy kontekstu. Wykorzystywany jest lekki komponent neuronowy, tzw. predyktor bramkujący, który generuje „maskę” decydującą o aktywacji neuronów. Decyzje bramkowania są binarne – neurony są albo w pełni aktywne, albo całkowicie pomijane, co zapewnia realne oszczędności obliczeniowe.
Architektura wprowadza mechanizm bramkowania świadomy kontekstu. Analizuje on cechy wejściowe (oraz, w przypadku modeli mowy, dodatkowe informacje, takie jak język i tokeny zadań) w celu określenia, które moduły – takie jak bloki samo-uwagi, sieci typu feed-forward czy wyspecjalizowane konwolucje – są niezbędne dla bieżącego kroku. Na przykład, w zadaniu rozpoznawania mowy, może aktywować moduły kontekstu lokalnego do szczegółowej analizy dźwięku, pomijając zbędne komponenty przydatne tylko dla innych zadań.
Strategia „przycinania” jest ustrukturyzowana i modułowa: zamiast usuwać pojedyncze wagi (co może prowadzić do nieefektywności sprzętowej), pomija całe moduły lub warstwy. Zachowuje to integralność strukturalną modelu i zapewnia kompatybilność z procesorami graficznymi (GPU) oraz współczesnymi akceleratorami sprzętowymi. Model predyktora bramkującego jest trenowany z funkcją straty rzadkości, aby osiągnąć docelową rzadkość, czyli proporcję pomijanych modułów. Trening wykorzystuje techniki takie jak estymator Gumbel-Softmax, zapewniając, że zachowanie bramkowania pozostaje różniczkowalne podczas optymalizacji, ale ostatecznie skutkuje precyzyjnym, binarnym wyborem neuronów w fazie wnioskowania.
Eksperymenty wykazały, że dynamiczne pomijanie nieistotnych modułów może skrócić czas wnioskowania nawet o 34% dla wielojęzycznych zadań przetwarzania mowy na tekst (ASR). W takich przypadkach, gdzie typowe modele bazowe miały opóźnienie 9,28 sekundy, modele z „przyciętą” siecią działały już w 5,22 sekundy, w zależności od zadania i pożądanego poziomu rzadkości. Zmniejszono również liczbę operacji zmiennoprzecinkowych (FLOPs) o ponad 60% przy wysokich poziomach rzadkości, co znacznie obniża koszty chmury i sprzętu. Ważne jest, że zachowano jakość wyników: „przycięcie” w szczególności dekodera zachowuje wskaźniki BLEU (dla zadań tłumaczenia) i współczynnik błędów słów (WER) dla ASR do umiarkowanego poziomu rzadkości, co oznacza, że użytkownicy nie zauważają spadku wydajności modelu do momentu, gdy zastosowane zostanie bardzo agresywne „przycinanie”. Architektura zapewnia również interpretację: analiza wzorców „przyciętych” modułów ujawnia, które części modelu są niezbędne dla każdego kontekstu – moduły kontekstu lokalnego dominują w ASR, podczas gdy sieci feed-forward są priorytetem dla tłumaczenia mowy.
Kluczową obserwacją jest to, że optymalne strategie „przycinania” mogą się radykalnie zmieniać w zależności od zadania i języka. Na przykład w przypadku ASR, znaczenie modułów kontekstu lokalnego (cgMLP) jest kluczowe, podczas gdy dekoder może być znacznie „odchudzony” bez znaczącej utraty dokładności. W przypadku tłumaczenia mowy (ST), zarówno koder, jak i dekoder wymagają bardziej zrównoważonej uwagi, ponieważ warstwy feed-forward dekodera są niezbędne. W scenariuszach wielojęzycznych lub wielozadaniowych, selekcja modułów dostosowuje się, ale wykazuje spójne wzorce w każdym typie, podkreślając nauczoną specjalizację w ramach architektury.
To dynamiczne, modułowe „przycinanie” otwiera drzwi dla bardziej efektywnych energetycznie i skalowalnych rozwiązań AI, co jest szczególnie ważne w miarę ciągłego wzrostu LLM i modeli multimodalnych. Modele AI, które mogą personalizować swoje ścieżki obliczeniowe – nie tylko według zadania, ale potencjalnie według profilu użytkownika, regionu czy urządzenia – mają ogromny potencjał. Przenoszalność do innych dziedzin, takich jak przetwarzanie języka naturalnego i wizja komputerowa, gdzie wykorzystywane są modele fundamentowe, jest również istotna.Amazon, poprzez selektywne aktywowanie tylko modułów istotnych dla zadania w czasie rzeczywistym, inspirowane biologiczną efektywnością neuronową, wskazuje drogę w kierunku AI, która jest zarówno potężna, jak i praktyczna w globalnym, rzeczywistym zastosowaniu.
