LLMR & D

Przełom Liquid AI: Reinforcement Learning udoskonala małe modele językowe

Wraz z dynamicznym rozwojem sztucznej inteligencji rośnie zapotrzebowanie na wydajne modele językowe zdolne do działania w środowiskach o ograniczonych zasobach. Odpowiedzią Liquid AI na to wyzwanie jest LFM2-2.6B-Exp, eksperymentalny punkt kontrolny rodziny modeli LFM2, który wprowadza wzmocnione uczenie (Reinforcement Learning – RL) bez modyfikacji architektury bazowej.

Celem projektu LFM2-2.6B-Exp jest udoskonalenie kluczowych aspektów działania małych modeli językowych, takich jak precyzja w podążaniu za instrukcjami, zdolność do przetwarzania i generowania wiedzy oraz umiejętności matematyczne. Wszystko to przy zachowaniu rozmiaru klasy 3 miliardów parametrów, co pozwala na efektywne wdrożenie na urządzeniach brzegowych, takich jak smartfony czy laptopy.

LFM2-2.6B-Exp: Ewolucja w rodzinie LFM2

LFM2 to druga generacja modeli fundacyjnych Liquid AI, zaprojektowanych z myślą o efektywności i oszczędności zasobów. Charakteryzują się hybrydową architekturą, łączącą bloki konwolucyjne LIV krótkiego zasięgu z blokami uwagi z grupowanym zapytaniem, kontrolowanymi przez bramki multiplikatywne. Rodzina LFM2 obejmuje cztery rozmiary: 350M, 700M, 1.2B i 2.6B parametrów. Wszystkie modele cechuje długość kontekstu 32 768 tokenów, słownik o rozmiarze 65 536 tokenów oraz precyzja bfloat16. Wersja 2.6B, będąca podstawą dla LFM2-2.6B-Exp, składa się z 30 warstw, w tym 22 konwolucyjnych i 8 atencyjnych, i została wytrenowana na 10 bilionach tokenów.

Model LFM2-2.6B już w wersji bazowej osiąga imponujące wyniki, wyprzedzając wiele konkurencyjnych modeli klasy 3B. Na przykład uzyskuje 82,41% w teście GSM8K i 79,56% w IFEval, co stawia go przed takimi modelami jak Llama 3.2 3B Instruct, Gemma 3 4B it czy SmolLM3 3B.

Wzmocnione uczenie jako klucz do udoskonalenia

Unikalność LFM2-2.6B-Exp polega na zastosowaniu wzmocnionego uczenia na już wytrenowanej, dostosowanej podstawie. Oznacza to, że model nie zmienia swojej architektury ani fazy wstępnego treningu, ale udoskonala swoje zachowanie poprzez sekwencyjny harmonogram treningu RL. Proces ten rozpoczyna się od poprawy podążania za instrukcjami, następnie rozszerza się na zadania związane z wiedzą, matematyką oraz ograniczonym użyciem narzędzi, bez dodatkowych kroków Supervised Fine-Tuning (SFT) czy destylacji.

To podejście pozwala na precyzyjne kształtowanie polityki modelu w wybranych domenach, wykorzystując weryfikowalne nagrody, na istniejącej już, wysokiej jakości bazie. LFM2-2.6B-Exp zachowuje ten sam proces tokenizacji, okno kontekstowe i profil sprzętowy, koncentrując się wyłącznie na modyfikacji zachowań za pomocą RL.

Wyniki benchmarkingowe i architektura, która ma znaczenie

Liquid AI podkreśla wyniki modelu w teście IFBench, który mierzy zdolność modelu do niezawodnego podążania za złożonymi i ograniczonymi instrukcjami. LFM2-2.6B-Exp przewyższa w tym teście DeepSeek R1-0528, model 263-krotnie większy pod względem liczby parametrów, co świadczy o wyjątkowej wydajności przypadającej na parametr.

Architektura hybrydowa LFM2-2.6B-Exp, składająca się z dziesięciu bloków konwolucyjnych LIV z podwójną bramką i sześciu bloków uwagi z grupowanym zapytaniem, efektywnie redukuje koszt pamięci KV cache i zapewnia szybką inferencję na konsumenckich kartach graficznych i jednostkach NPU.

Mieszanka danych treningowych obejmuje około 75% danych angielskojęzycznych, 20% wielojęzycznych (w tym arabski, chiński, francuski, niemiecki, japoński, koreański i hiszpański) oraz 5% kodu. Modele LFM2 obsługują szablony podobne do ChatML i natywne tokeny do użycia narzędzi, co czyni je idealnymi do zastosowań agentowych i systemów generowania z rozszerzonym wyszukiwaniem (RAG), bez konieczności zaawansowanej inżynierii promptów.

Dodatkowo LFM2-2.6B, a tym samym LFM2-2.6B-Exp, jest jedynym modelem w rodzinie, który umożliwia dynamiczne rozumowanie hybrydowe za pomocą specjalnych tokenów „think” dla złożonych lub wielojęzycznych danych wejściowych, co jeszcze bardziej podkreśla ich zaawansowane możliwości.

LFM2-2.6B-Exp udostępniono na Hugging Face z otwartymi wagami na licencji LFM Open License v1.0, z obsługą przez Transformers, vLLM, kwantyzacje GGUF llama.cpp i ONNXRuntime, co czyni go elastycznym rozwiązaniem dla twórców systemów AI.