Gen AILLMObrazR & D

FastVLM Apple’a – przełom w modelach językowo-wizualnych

Integracja tekstu i obrazu w zaawansowanych modelach językowych, znanych jako VLM (Vision Language Models), dynamicznie zmienia sposób interakcji z danymi. Kluczowym aspektem, wpływającym na ich wydajność, jest zdolność do przetwarzania obrazów w wysokiej rozdzielczości, szczególnie w kontekście interpretacji tekstów i wykresów. Jednakże, rosnąca rozdzielczość niesie ze sobą istotne wyzwania. Modele, które były szkolone na obrazach o niższej rozdzielczości, często napotykają trudności w efektywnym skalowaniu, a przetwarzanie danych o wysokiej rozdzielczości znacząco zwiększa obciążenie obliczeniowe oraz opóźnienia, mierzone jako czas do pierwszego tokenu (TTFT).

Aktualne rozwiązania często polegają na metodach łączących osadzenia obrazu i tekstu w warstwach pośrednich sieci neuronowych, tak jak ma to miejsce w modelach Frozen i Florence. Z kolei architektury autoregresywne, takie jak LLaVA czy MiniGPT-4, stają się coraz skuteczniejsze w zadaniach związanych z multimodalnym rozumieniem. Efektywne kodowanie obrazu często opiera się na transformatorach wizyjnych przetrenowanych za pomocą modelu CLIP, a próby optymalizacji obejmują dynamiczne przycinanie tokenów czy wykorzystanie hierarchicznych architektur w celu redukcji ich liczby. Interesującym podejściem jest niedawno wprowadzony ConvLLaVA, który wykorzystuje konwolucyjne kodery wizyjne.

Przełomowe podejście Apple’a

Badacze z Apple zaproponowali FastVLM, model, który ma za zadanie zoptymalizować kompromis między rozdzielczością, opóźnieniem a dokładnością. Punktem wyjścia do jego stworzenia była analiza zależności między jakością obrazu, czasem przetwarzania, liczbą tokenów i rozmiarem modelu językowego. Sercem FastVLM jest FastViTHD – hybrydowy koder wizyjny zaprojektowany do generowania mniejszej liczby tokenów wizyjnych, co jednocześnie redukuje czas kodowania dla obrazów wysokiej rozdzielczości.

Dzięki temu FastVLM wykazuje blisko trzykrotną poprawę w czasie do pierwszego tokenu (TTFT) w porównaniu do konfiguracji LLaVA 1.5, oferując jednocześnie lepszą wydajność na kluczowych benchmarkach. Co więcej, model jest w stanie osiągnąć taką wydajność, wykorzystując znacznie mniejszy koder wizyjny, co przekłada się na około 85-krotnie szybsze generowanie pierwszego tokenu. Jego budowa obejmuje pięć etapów, z których pierwsze trzy używają bloków RepMixer dla efektywnego przetwarzania, a ostatnie dwa – bloków wielogłowicowych z mechanizmem uwagi, co pozwala na optymalne połączenie wydajności obliczeniowej z precyzyjnym rozumieniem obrazów wysokiej rozdzielczości.

Szybkość i precyzja w praktyce

W bezpośrednim porównaniu z ConvLLaVA, FastVLM osiąga 8,4% lepsze wyniki na zestawie danych TextVQA oraz 12,5% lepsze na DocVQA, przy czym działa o 22% szybciej. Wzrost wydajności jest szczególnie widoczny przy wyższych rozdzielczościach, gdzie FastVLM utrzymuje dwukrotne przyspieszenie w stosunku do ConvLLaVA. Co więcej, FastVLM dorównuje lub przewyższa wydajność modelu MM1 na różnych benchmarkach, generując jednocześnie pięciokrotnie mniej tokenów wizualnych.

Co istotne, FastVLM nie tylko prześciga wydajnościowo model Cambrian-1, ale działa również prawie ośmiokrotnie szybciej, jednocześnie zużywając 2,3 razy mniej tokenów wizualnych po skalowaniu dostrajania instrukcji.

Implikacje dla rozwoju VLM

Wprowadzenie FastVLM stanowi istotny krok naprzód w dziedzinie VLM. Wykorzystanie innowacyjnego rozwiązania FastViTHD jako trzonu dla efektywnego kodowania obrazów wysokiej rozdzielczości pozwala na osiągnięcie zoptymalizowanego kompromisu między rozdzielczością, opóźnieniem a dokładnością. Hybrydowa architektura, wytrenowana na wzmocnionych danych obrazowo-tekstowych, efektywnie redukuje liczbę generowanych tokenów wizualnych, minimalizując jednocześnie straty w dokładności w porównaniu do istniejących podejść.

Prezentowane wyniki badań, w tym rygorystyczne testy na sprzęcie M1 MacBook Pro, pokazują, że FastVLM oferuje znaczące usprawnienia w czasie do pierwszego tokenu (TTFT) i efektywności energetycznej, co czyni go wiodącym rozwiązaniem na rynku modeli językowo-wizualnych. Wydajność FastVLM potwierdza jego potencjał w przyspieszeniu rozwoju systemów AI wymagających złożonego rozumienia wizualnego w czasie rzeczywistym.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *