LLM

Architektura oszczędności: Ant Group prezentuje serię Ling 2.0 – modele MoE o skali biliona parametrów

Współczesna gonitwa w dziedzinie sztucznej inteligencji zazwyczaj sprowadza się do prostego schematu: im więcej mocy obliczeniowej, tym lepsze wyniki. Zespół Inclusion AI z ramienia Ant Group postanowił jednak zakwestionować tę zależność, prezentując serię Ling 2.0. To rodzina modeli typu Mixture of Experts (MoE), w których kluczowym założeniem nie jest po prostu zwiększenie skali, lecz rygorystyczna optymalizacja procesu aktywacji parametrów. Strategia ta pozwala na budowę modeli o rozmiarach od 16 miliardów do biliona parametrów, zachowując przy tym niemal stały koszt obliczeniowy dla każdego generowanego tokenu.

Matematyka efektywności: zasada 1/32

Fundamentem Ling 2.0 jest specyficzna, rzadka architektura MoE. Podczas gdy tradycyjne modele gęste angażują całą swoją strukturę do przetworzenia każdego zapytania, Ling 2.0 wykorzystuje system 256 wyspecjalizowanych ekspertów (routed experts) oraz jednego eksperta współdzielonego. Dzięki inteligentnemu routerowi dla każdego tokenu wybieranych jest tylko 8 jednostek, co w połączeniu z ekspertem stałym daje aktywację na poziomie około 3,5%.

Przekłada się to na tak zwany współczynnik aktywacji 1/32. W praktyce oznacza to, że model Ling 1T, posiadający bilion parametrów, w rzeczywistości „używa” jedynie 50 miliardów z nich w danym momencie. Według inżynierów Ant Group takie podejście zapewnia siedmiokrotnie wyższą efektywność treningu i wnioskowania przy zachowaniu jakości odpowiedzi porównywalnej z modelami o znacznie większym koszcie operacyjnym.

Ling Scaling Laws: przewidywanie zamiast błądzenia

Zamiast polegać na metodzie prób i błędów, twórcy Ling 2.0 opracowali własne prawa skalowania (Ling Scaling Laws). Wykorzystano do tego „tunel aerodynamiczny” (Ling Wind Tunnel) – środowisko testowe, w którym mniejsze instancje modeli szkolone były przy zachowaniu tych samych reguł routingu co ich gigantyczne odpowiedniki. Dzięki temu zespół był w stanie precyzyjnie przewidzieć straty (loss) i optymalny balans ekspertów jeszcze przed uruchomieniem procesorów graficznych do treningu flagowego modelu 1T.

Proces szkolenia oparto na potężnym zbiorze ponad 20 bilionów tokenów. Co istotne, Ling 2.0 nie uczy się rozumowania dopiero na etapie dostrajania instrukcyjnego. Już w fazie pre-treningu źródła bogate w logikę, takie jak kod programistyczny i matematyka, stanowiły niemal połowę korpusu danych. Dodatkowo zastosowano technikę YaRN, która pozwoliła na płynne rozszerzenie okna kontekstowego do 128 tysięcy tokenów, nie tracąc przy tym ostrości w krótkich interakcjach.

Nowy standard w post-treningu i infrastrukturze

Model Ling 2.0 przechodzi dwuetapowy proces ustawiania (alignment). Pierwsza faza uczy model przełączania się między szybkimi odpowiedziami a głębokim procesem myślowym (Chain of Thought). Druga natomiast wykorzystuje autorską metodę LPO (Sentence-level Policy Optimization), która dopasowuje strukturę wypowiedzi do ludzkich preferencji na poziomie pojedynczych zdań. Dzięki temu model potrafi dostarczać precyzyjne rozwiązania zadań matematycznych bez zbędnego „puchnięcia” tekstu tam, gdzie wystarczy krótka odpowiedź.

Warto również zwrócić uwagę na aspekt sprzętowy. Ling 2.0 natywnie wykorzystuje format FP8 z mechanizmami zabezpieczającymi, co pozwala zaoszczędzić pamięć przy minimalnym wpływie na krzywą uczenia. Innowacje w paralelizmie potokowym pozwoliły na zwiększenie utylizacji sprzętu o około 40%, czyniąc trening modeli bilionowych realnym wyzwaniem nawet na istniejących klastrach obliczeniowych.

Premiera serii Ling 2.0 – od zwinnego Ling mini 2.0 (16B), przez wszechstronny Ling flash 2.0 (100B), aż po potężny Ling 1T – stanowi jasny sygnał dla branży: droga do superinteligencji nie musi prowadzić przez nieograniczone pożeranie energii, lecz przez inteligentną selekcję parametrów.