Google i MediaTek otwierają NPU na AI. LiteRT ma przenieść LLM-y z chmury na smartfony

2025-12-12 AI Sight

Uruchamianie zaawansowanych modeli sztucznej inteligencji bezpośrednio na smartfonie, bez połączenia z internetem, od dawna było celem producentów sprzętu i oprogramowania. Główną przeszkodą okazywała się jednak sprzętowa fragmentacja, która zmuszała deweloperów do tworzenia osobnych wersji aplikacji dla każdego układu scalonego. Google, we współpracy z MediaTekiem, zamierza położyć temu kres za pomocą nowej platformy LiteRT NeuroPilot Accelerator. To konkretny krok w kierunku przekształcenia wyspecjalizowanych procesorów neuronowych (NPU) w pełnoprawne środowisko do uruchamiania generatywnej AI.

Koniec z fragmentacją, czyli co zyskują programiści

Dotychczas wykorzystanie NPU w urządzeniach mobilnych przypominało stąpanie po polu minowym. Każdy producent układów SoC dostarczał własny, niekompatybilny z innymi zestaw narzędzi (SDK). W efekcie deweloperzy musieli kompilować modele pod konkretny chip, korzystać z niestandardowych bibliotek i ręcznie zarządzać pakietami. Prowadziło to do lawinowego wzrostu liczby wersji oprogramowania i koszmaru związanego z testowaniem na poszczególnych urządzeniach.

LiteRT NeuroPilot Accelerator wprowadza w to miejsce zunifikowany proces. LiteRT, będący następcą popularnego TensorFlow Lite, staje się wysokowydajnym środowiskiem uruchomieniowym, które komunikuje się bezpośrednio ze stosem NeuroPilot od MediaTeka. Zamiast traktować NPU jako zewnętrzny moduł, nowa integracja wykorzystuje API Compiled Model. Pozwala to na kompilację modelu zarówno z wyprzedzeniem (Ahead of Time, AOT), jak i bezpośrednio na urządzeniu użytkownika, a wszystko to za pomocą tego samego interfejsu w C++ i Kotlinie.

Kompilacja AOT jako klucz do wydajności

Nowe podejście wspiera dwie ścieżki. Kompilacja na urządzeniu jest wygodna dla mniejszych modeli i upraszcza dystrybucję, ale wiąże się z opóźnieniem przy pierwszym uruchomieniu. W przypadku dużych modeli językowych jest to bariera nie do przeskoczenia. Google podaje przykład modelu Gemma-3-270M, którego kompilacja na smartfonie może zająć ponad minutę. Dlatego kluczowym elementem platformy jest kompilacja AOT. Deweloper przygotowuje zoptymalizowany pod konkretne układy SoC pakiet (AI Pack), który jest następnie dystrybuowany przez Google Play w ramach usługi Play for On-device AI (PODAI). Aplikacja w trakcie działania po prostu wybiera akcelerator NPU, a LiteRT zajmuje się resztą, w razie potrzeby przełączając się na GPU lub CPU.

Otwarte modele i realne osiągi

Platforma od początku została zaprojektowana z myślą o otwartych modelach, co ma zapobiec uzależnieniu od jednego, zamkniętego ekosystemu. Google i MediaTek oficjalnie wspierają takie modele jak Qwen3 0.6B, kilka wariantów Gemma-3 (w tym multimodalny Gemma-3n E2B) oraz EmbeddingGemma 300M do zastosowań w RAG i wyszukiwaniu semantycznym. To solidny zestaw startowy do zadań od generowania tekstu po analizę obrazu i dźwięku.

A jak wygląda wydajność w praktyce? Na flagowym układzie MediaTek Dimensity 9500 (testowanym na smartfonie Vivo X300 Pro) multimodalny model Gemma-3n E2B osiąga ponad 1600 tokenów na sekundę w fazie prefill i 28 tokenów na sekundę podczas generowania odpowiedzi (decode) przy kontekście 4K. Według twórców, dla obciążeń związanych z LLM, NPU może być nawet 12-krotnie szybszy od CPU i 10-krotnie od GPU.

Nowe API i operacje bez kopiowania danych

Z perspektywy dewelopera kluczowe jest nowe API w C++, które integruje się z androidowymi buforami sprzętowymi (AHardwareBuffer). Umożliwia to realizację operacji „zero-copy”, gdzie dane z przetwarzania obrazu na GPU mogą być przekazywane bezpośrednio do NPU bez pośrednictwa i kopiowania przez pamięć procesora głównego. To fundamentalna optymalizacja dla aplikacji działających w czasie rzeczywistym, np. filtrów wideo czy analizy obrazu z kamery, gdzie wielokrotne kopiowanie klatek natychmiastowo zapchałoby przepustowość pamięci.

Ujednolicenie API sprawia, że ten sam kod, z niewielkimi modyfikacjami, może być wykorzystywany do uruchamiania modeli na CPU, GPU i NPU MediaTeka. To strategiczne posunięcie, które może wreszcie uczynić z NPU nie tylko marketingowy dodatek, ale realne, dostępne dla szerokiego grona programistów narzędzie do tworzenia nowej generacji aplikacji AI działających w pełni na urządzeniu końcowego użytkownika.

Koniec z fragmentacją, czyli co zyskują programiści

Kompilacja AOT jako klucz do wydajności

Otwarte modele i realne osiągi

Nowe API i operacje bez kopiowania danych

Udostępnij:

Zobacz również

Sztuczna inteligencja a przełom w naukach ścisłych: Szybsze rozwiązania złożonych równań

Chiny: Dwie strategie rozwoju AI – DeepSeek stawia na wydajne modele, ByteDance inwestuje w integrację z życiem codziennym

xLight i rząd USA: nowe perspektywy w produkcji chipów i ponowne rozbudzenie prawa Moore’a

Dodaj komentarz Anuluj pisanie odpowiedzi