LLMR & D

Nowy model CALM obniża koszty wdrożeń AI w przedsiębiorstwach

Firmy mierzące się z wysokimi kosztami implementacji sztucznej inteligencji, zwłaszcza w zakresie modeli generatywnych, stoją przed dylematem opłacalności. O ile możliwości sztucznej inteligencji są kuszące, o tyle ogromne zapotrzebowanie na moc obliczeniową, zarówno w fazie szkolenia, jak i inferencji, generuje znaczące wydatki oraz budzi obawy ekologiczne. Głównym źródłem tej nieefektywności jest fundamentalne ograniczenie modeli autoregresywnych, które generują tekst sekwencyjnie, token po tokenie.

Dla przedsiębiorstw przetwarzających obszerne strumienie danych, od sieci IoT po rynki finansowe, to ograniczenie sprawia, że generowanie długich analiz staje się zarówno czasochłonne, jak i kosztowne. Jednakże, nowe badanie, będące efektem współpracy Tencent AI i Uniwersytetu Tsinghua, prezentuje alternatywne rozwiązanie.

Nowe podejście do efektywności AI

Badacze wprowadzają koncepcję Continuous Autoregressive Language Models (CALM). Ta metoda przekształca proces generowania, aby przewidywać wektor ciągły zamiast dyskretnego tokena. Wysokiej jakości autoenkoder kompresuje fragment K tokenów w pojedynczy wektor ciągły, który charakteryzuje się znacznie większą przepustowością semantyczną. Zamiast przetwarzać pojedyncze słowa, takie jak „the”, „cat”, „sat” w trzech krokach, model kompresuje je w jeden. Takie podejście bezpośrednio redukuje liczbę kroków generatywnych, co znacząco zmniejsza obciążenie obliczeniowe.

Eksperymentalne wyniki potwierdzają lepszy kompromis między wydajnością a zużyciem zasobów. Model CALM, który grupował cztery tokeny, osiągnął wydajność porównywalną do silnych dyskretnych modeli bazowych, jednak przy znacznie niższych kosztach obliczeniowych dla przedsiębiorstwa. Przykładowo, jeden z modeli CALM wymagał o 44 procent mniej operacji FLOPs podczas szkolenia i o 34 procent mniej operacji FLOPs podczas inferencji niż bazowy Transformer o podobnych możliwościach. Wskazuje to na oszczędności zarówno w początkowych kosztach kapitałowych szkolenia, jak i w bieżących kosztach operacyjnych inferencji.

Przekształcanie narzędzi pod kątem domeny ciągłej

Przejście od skończonego, dyskretnego słownictwa do nieskończonej, ciągłej przestrzeni wektorowej wymagało stworzenia nowego zestawu narzędzi dla modeli LLM. Badacze musieli opracować kompleksowe ramy oparte na maksymalizacji wiarygodności, aby nowy model stał się użyteczny. W fazie szkolenia model nie może wykorzystywać standardowej warstwy softmax ani estymacji maksymalnej wiarygodności. Aby rozwiązać ten problem, zespół zastosował cel niezależny od wiarygodności z Energy Transformer, który nagradza model za trafne przewidywania, bez konieczności obliczania jawnych prawdopodobieństw.

Ta nowatorska metoda szkolenia wymagała również nowej metryki oceny. Standardowe miary, takie jak Perplexity, są nieadekwatne, ponieważ opierają się na prawdopodobieństwach, których model już nie oblicza. Zespół zaproponował BrierLM – nową metrykę bazującą na wyniku Brier, którą można oszacować wyłącznie na podstawie próbek modelu. Walidacja potwierdziła, że BrierLM jest wiarygodną alternatywą, wykazując korelację rangową Spearmana na poziomie -0,991 z tradycyjnymi metrykami strat.

Ostatecznie, nowa struktura przywraca możliwość kontrolowanego generowania, co jest kluczową funkcją w zastosowaniach korporacyjnych. Standardowe próbkowanie temperaturowe jest niemożliwe bez rozkładu prawdopodobieństwa. Artykuł przedstawia nowy algorytm próbkowania niezależny od wiarygodności, w tym praktyczną metodę aproksymacji batchowej, w celu zarządzania kompromisem między dokładnością a różnorodnością wyników.

Redukcja kosztów AI w przedsiębiorstwach

Badania otwierają perspektywę przyszłości, w której generatywna sztuczna inteligencja nie będzie definiowana wyłącznie przez rosnącą liczbę parametrów, ale przede wszystkim przez efektywność architektoniczną. Obecna ścieżka skalowania modeli napotyka na bariery malejących zysków i eskalujących kosztów. Struktura CALM wprowadza nową osiową perspektywę dla skalowania modeli LLM: zwiększenie przepustowości semantycznej każdego etapu generowania.

Choć jest to jeszcze rama badawcza, a nie gotowy produkt, wskazuje na potężną i skalowalną drogę w kierunku ultraskutecznych modeli językowych. Liderzy technologiczni, oceniając plany rozwoju dostawców, powinni wyjść poza sam rozmiar modelu i zacząć pytać o efektywność architektoniczną. Zdolność do redukcji jednostek FLOPs na wygenerowany token stanie się kluczową przewagą konkurencyjną, umożliwiając bardziej ekonomiczne i zrównoważone wdrażanie sztucznej inteligencji w przedsiębiorstwach – od centrów danych po aplikacje brzegowe o dużym zapotrzebowaniu na dane.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *