LLMObraz

Liquid AI wprowadza LFM2-VL-3B: model VLM dla urządzeń brzegowych

Wraz z dynamicznym rozwojem sztucznej inteligencji, rośnie zapotrzebowanie na modele, które sprostają wyzwaniom przetwarzania danych bezpośrednio na urządzeniach brzegowych. Liquid AI odpowiada na te potrzeby, wprowadzając LFM2-VL-3B – nowy model językowo-wizyjny (VLM) z rodziny LFM2, o 3 miliardach parametrów. Ten model został stworzony z myślą o zadaniach konwersji obrazu i tekstu na tekst, uzupełniając istniejące już warianty 450M i 1.6B.

Głównym celem przy projektowaniu LFM2-VL-3B było osiągnięcie wysokiej dokładności przy jednoczesnym zachowaniu niskiego zapotrzebowania na moc obliczeniową i pamięć, co jest kluczowe dla efektywnej pracy na małych urządzeniach. Model jest dostępny w ramach LEAP oraz na platformie Hugging Face, na licencji LFM Open License v1.0. Taka otwartość sprzyja integracji i szerokiemu wykorzystaniu w różnych projektach.

Architektura dla wydajności

LFM2-VL-3B przyjmuje jako dane wejściowe obrazy i tekst, generując w odpowiedzi tekst. Model wykorzystuje wzorzec zbliżony do ChatML, gdzie znacznik <image> jest zamieniany na zakodowane tokeny obrazu w trakcie działania. Domyślna długość kontekstu tekstowego wynosi 32 768 tokenów, co jest istotne dla programistów integrujących model z istniejącymi potokami multimodalnymi.

Architektura LFM2-VL-3B jest przemyślana pod kątem oszczędności zasobów. Składa się z dwóch głównych komponentów: wieży językowej (LFM2-2.6B, hybrydowy splotowy i uwagowy rdzeń) oraz wieży wizyjnej (SigLIP2 NaFlex, 400M parametrów). Co istotne, SigLIP2 NaFlex zachowuje natywne proporcje obrazu, minimalizując zniekształcenia. Pomiędzy tymi komponentami znajduje się dwuwarstwowy projektor MLP z dekompresją pikseli, który kompresuje tokeny obrazu przed ich połączeniem z przestrzenią języka. Dzięki takiemu rozwiązaniu użytkownicy mogą zarządzać budżetem tokenów wizyjnych bez konieczności ponownego trenowania modelu, co przekłada się na elastyczność i kontrolę nad wydajnością.

Obsługa rozdzielczości i efektywność tokenów

Model przetwarza natywne rozdzielczości obrazów do 512×512 pikseli. Większe obrazy są dzielone na nieoverlappingowe łatki 512×512, z dodatkową ścieżką miniatur zapewniającą globalny kontekst podczas kafelkowania. Efektywne mapowanie tokenów zostało udokumentowane: obraz 256×384 generuje 96 tokenów, a obraz 1000×3000 – 1020 tokenów. Karta modelu w Hugging Face udostępnia użytkownikom kontrolę nad minimalną i maksymalną liczbą tokenów obrazu, a także opcję przełączania trybu kafelkowania, co pozwala na precyzyjne dostosowanie szybkości i jakości wnioskowania.

Trenowanie i osiągnięcia

Liquid AI przyjęło etapowe podejście do trenowania LFM2-VL-3B. Zespół przeprowadził wspólne trenowanie śródokresowe, które dynamicznie dostosowywało stosunek tekstu do obrazu. Następnie model przeszedł nadzorowane dostrajanie, koncentrujące się na głębokim rozumieniu obrazu. Dane do trenowania pochodziły z dużych, otwartych zbiorów danych, a także wewnętrznie generowanych, syntetycznych danych wizyjnych, co zapewniło szerokie pokrycie zadań.

W testach porównawczych LFM2-VL-3B uzyskał konkurencyjne wyniki wśród lekkich, otwartych modeli VLM. Na MM-IFEval osiągnął 51,83, na RealWorldQA – 71,37, a na MMBench dev en – 79,81. Wynik POPE wyniósł 89.01. Zespół podkreśla, że możliwości językowe modelu są zbliżone do rdzenia LFM2-2.6B, osiągając 30% na GPQA i 63% na MMLU, co jest istotne w przypadku zapytań wymagających zarówno percepcyjnego, jak i wiedzy. Ponadto, model oferuje rozszerzone, wielojęzyczne rozumienie wizualne w językach angielskim, japońskim, francuskim, hiszpańskim, niemieckim, włoskim, portugalskim, arabskim, chińskim i koreańskim.

Znaczenie dla urządzeń brzegowych

Architektura LFM2-VL-3B została zaprojektowana tak, aby minimalizować zużycie zasobów obliczeniowych i pamięci, co czyni ją idealną dla urządzeń brzegowych. Kompresowalność tokenów obrazu i możliwość ich kontrolowania przez użytkownika zapewniają przewidywalną przepustowość. Encoder SigLIP2 400M NaFlex zachowuje proporcje obrazu, co jest kluczowe dla precyzyjnej percepcji, a projektor zmniejsza liczbę tokenów, zwiększając efektywność przetwarzania na sekundę. Dodatkowo, zespół opublikował wersję GGUF, ułatwiającą implementację na urządzeniach. Te cechy są szczególnie cenne dla robotyki, urządzeń mobilnych oraz klientów przemysłowych, którzy potrzebują lokalnego przetwarzania danych i ścisłych granic prywatności.

Podsumowanie

LFM2-VL-3B stanowi znaczący krok naprzód w dziedzinie multimodalnych obciążeń na urządzeniach brzegowych. Kompaktowa architektura, efektywne zarządzanie tokenami i natywne przetwarzanie rozdzielczości, w połączeniu z konkurencyjnymi wynikami benchmarków, sprawiają, że jest to atrakcyjne rozwiązanie. Otwarta dystrybucja, wersja GGUF i dostępność na LEAP obniżają bariery integracji, czyniąc model gotowym do szerokiego zastosowania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *