Liquid AI prezentuje LFM2-8B-A1B: model MoE stworzony dla urządzeń mobilnych
W świecie sztucznej inteligencji, gdzie modele językowe rosną w zastraszającym tempie, Liquid AI proponuje alternatywę: LFM2-8B-A1B, model Mixture-of-Experts (MoE) o architekturze zoptymalizowanej pod kątem urządzeń mobilnych. Zamiast dążyć do absolutnej potęgi obliczeniowej, inżynierowie skupili się na efektywności, tworząc model, który może działać na smartfonach, laptopach i systemach embedded bez nadmiernego obciążania zasobów.
Architektura i działanie
LFM2-8B-A1B wykorzystuje architekturę MoE, która charakteryzuje się posiadaniem wielu „ekspertów”. Model ma 8.3 miliarda parametrów, ale podczas przetwarzania każdego tokenu aktywne jest tylko około 1.5 miliarda z nich. Sprytny system routingu wybiera najbardziej odpowiednich ekspertów dla danego zadania, co pozwala na zachowanie niskiego zapotrzebowania na moc obliczeniową przy jednoczesnym zwiększeniu możliwości reprezentacyjnych modelu. Rdzeń modelu stanowi tzw. „fast backbone” LFM2, składający się z 18 warstw gated short-convolution i 6 warstw grouped-query attention (GQA). Bloki MoE są obecne we wszystkich warstwach z wyjątkiem dwóch pierwszych, co zapewnia stabilność działania.
Każdy blok MoE definiuje 32 ekspertów, z których router wybiera 4 najlepszych dla każdego tokenu. Kontekst modelu obejmuje 32,768 tokenów, a słownik zawiera 65,536 słów. Według Liquid AI, model był trenowany na około 12 bilionach tokenów.
Wydajność i zastosowania
Liquid AI twierdzi, że LFM2-8B-A1B działa znacznie szybciej niż Qwen3-1.7B w testach CPU. Firma porównuje jakość modelu do modeli gęstych o 3-4 miliardach parametrów, przy jednoczesnym utrzymaniu aktywnego obliczenia na poziomie około 1.5 miliarda parametrów. Model został przetestowany na różnych benchmarkach, obejmujących wiedzę ogólną, instrukcje, matematykę i zadania wielojęzyczne. Wyniki wskazują na konkurencyjną wydajność w zadaniach instrukcyjnych i matematycznych, a także na poprawę w zakresie wiedzy ogólnej w porównaniu do LFM2-2.6B.
Wdrożenie i narzędzia
LFM2-8B-A1B jest dostępny z Transformers/vLLM do wnioskowania na GPU oraz z GGUF do użytku z llama.cpp. Liquid AI przeprowadziło walidację CPU przy użyciu kwantyzacji Q4_0 z int8 dynamic activations na procesorach AMD Ryzen AI 9 HX370 i Samsung Galaxy S24 Ultra, gdzie LFM2-8B-A1B wykazał wyższą przepustowość dekodowania niż Qwen3-1.7B. Do wdrażania na urządzeniach mobilnych i embedded wykorzystywany jest ExecuTorch.
Przyszłość modeli on-device
LFM2-8B-A1B pokazuje, że architektura MoE może być praktyczna nawet w przypadku modeli o mniejszej skali. Model ten łączy architekturę konwolucyjno-atencyjną LFM2 z warstwami ekspertów MLPs, co pozwala na utrzymanie niskiego zapotrzebowania na moc obliczeniową przy jednoczesnym podnoszeniu jakości. Dzięki standardowym wagom i kompatybilności z popularnymi narzędziami, LFM2-8B-A1B stanowi realną opcję dla tworzenia aplikacji działających lokalnie, które zapewniają prywatność i niskie opóźnienia.
Czy LFM2-8B-A1B zapoczątkuje nową erę AI na urządzeniach mobilnych? Czas pokaże, ale potencjał jest obiecujący.