SmallThinker: Przełom w lokalnym uruchamianiu dużych modeli językowych
Krajobraz sztucznej inteligencji od lat zdominowany jest przez potężne modele językowe, które ze względu na swoje rozmiary i wymagania obliczeniowe, operują głównie w chmurze. Takie podejście, choć efektywne w kontekście skalowalności, stwarza barierę dostępu dla indywidualnych użytkowników i firm dążących do lokalnego, prywatnego przetwarzania danych. Często podejmuje się próbę kompresji tych ogromnych modeli na urządzenia brzegowe, co zazwyczaj wiąże się z kompromisami w wydajności. Zespół badawczy z Shanghai Jiao Tong University i Zenergize AI obrał inną drogę, pytając: co, jeśli model językowy zostałby od podstaw zaprojektowany z myślą o ograniczeniach lokalnych?
Filozofia projektowania: ograniczenia lokalne jako atut
To fundamentalne pytanie stało się punktem wyjścia dla stworzenia SmallThinker – rodziny modeli Mixture-of-Experts (MoE), które zostały natywnie przeszkolone do działania w środowiskach z ograniczoną pamięcią i mocą obliczeniową. Modele te, dostępne w dwóch wariantach – SmallThinker-4B-A0.6B i SmallThinker-21B-A3B – demonstrują, że wysoka wydajność AI na urządzeniach końcowych jest osiągalna bez poświęcania funkcjonalności.
Kluczem do sukcesu SmallThinker jest ich unikatowa architektura MoE, która znacząco różni się od tradycyjnych, monolitycznych LLM. Zamiast aktywować wszystkie parametry dla każdego tokenu, SmallThinker wykorzystuje rozproszoną aktywację ekspertów. Przykładowo, w modelu SmallThinker-4B-A0.6B, z 4 miliardów parametrów, dla każdego tokenu aktywowanych jest zaledwie 600 milionów. W większym wariancie, SmallThinker-21B-A3B, spośród 21 miliardów, aktywne pozostają tylko 3 miliardy. Takie podejście umożliwia osiągnięcie wysokiej pojemności modelu bez gigantycznych wymagań pamięciowych i obliczeniowych.
Dodatkowo, SmallThinker wprowadza innowacyjne rozwiązania, takie jak ReGLU-Based Feed-Forward Sparsity, które zapewniają, że nawet w aktywnych ekspertach ponad 60% neuronów pozostaje nieaktywnych podczas etapu wnioskowania. Zastosowanie hybrydowego mechanizmu uwagi NoPE-RoPE (NoPositionalEmbedding i RoPE sliding-window) pozwala na efektywną obsługę długich kontekstów (do 32K tokenów dla wersji 4B) przy jednoczesnym zmniejszeniu zapotrzebowania na pamięć cache. Niezwykle istotny dla wydajności na urządzeniach jest również router pre-uwagowy i inteligentne odciążanie, które pozwalają na jednoczesne wstępne ładowanie parametrów z szybkiej pamięci masowej (SSD/flash) wraz z obliczeniami, co skutecznie minimalizuje opóźnienia I/O.
Trening i wydajność: dowody na stole
Modele SmallThinker były trenowane od podstaw, nie jako destylacje, na ogromnych zbiorach danych obejmujących wiedzę ogólną, STEM, matematykę i programowanie. Wariant 4B przetworzył 2,5 biliona tokenów, a model 21B – 7,2 biliona. Dane pochodziły z wyselekcjonowanych zbiorów open-source, rozszerzone o syntetyczne dane matematyczne i kodowe, a także instrukcje nadzorowanego uczenia, ze szczególnym naciskiem na wzmocnienie zdolności rozumowania.
Wyniki benchmarków są imponujące. SmallThinker-21B-A3B, pomimo aktywowania znacznie mniejszej liczby parametrów niż konkurencyjne modele, dorównuje im lub przewyższa je w kluczowych zadaniach, począwszy od matematyki (MATH-500, GPQA-Diamond), przez generowanie kodu (HumanEval), aż po ogólne oceny wiedzy (MMLU). Co ważne, SmallThinker-21B-A3B osiąga średni wynik 76,3 we wszystkich testach, wyprzedzając Qwen3-30B-A3B (74,5) i Phi-4-14B (68,8).
Prawdziwa moc SmallThinker ujawnia się jednak na urządzeniach z ograniczoną pamięcią. Wariant 4B działa komfortowo z zaledwie 1 GiB pamięci RAM, a model 21B z 8 GiB, bez znaczących spadków wydajności. Przykładowo, SmallThinker-21B-A3B utrzymuje ponad 20 tokenów na sekundę na standardowym procesorze, podczas gdy Qwen3-30B-A3B w podobnych warunkach pamięciowych boryka się z poważnymi problemami.
Wyzwania i perspektywy rozwoju
Mimo imponujących osiągnięć, twórcy SmallThinker otwarcie wskazują na obszary wymagające dalszych prac. Obecny korpus treningowy, choć duży, jest mniejszy niż w przypadku niektórych modeli chmurowych, co może ograniczać generalizację w rzadkich domenach. Modele SmallThinker są również dostrajane wyłącznie poprzez nadzorowane uczenie, brakuje im wzmocnionego uczenia od ludzi (RLHF), co może wpływać na bezpieczeństwo i użyteczność. Ponadto, dominacja języka angielskiego i chińskiego w danych treningowych może skutkować niższą jakością w innych językach. Twórcy zapowiadają rozszerzenie zbiorów danych i wprowadzenie RLHF w przyszłych wersjach.
SmallThinker stanowi istotny punkt zwrotny w projektowaniu modeli językowych. Zamiast próbować zmniejszyć gigantyczne modele chmurowe, zespół rozpoczął od fundamentalnego założenia: projektowania z myślą o ograniczeniach sprzętowych. Rezultatem są wysoce wydajne, dostępne i zdolne modele, które otwierają drzwi do prywatnej, responsywnej sztucznej inteligencji na niemal każdym urządzeniu, demokratyzując dostęp do zaawansowanych technologii. Modele SmallThinker-4B-A0.6B-Instruct i SmallThinker-21B-A3B-Instruct są już dostępne dla badaczy i deweloperów, stanowiąc namacalny dowód na to, co jest możliwe, gdy projekt modelu napędzany jest realiami wdrożenia, a nie tylko ambicjami centrum danych.
