LLM

GLM-4.1V-Thinking: Nowa granica w rozumieniu multimodalnym

Zdolność integracji i przetwarzania informacji z wielu modalności – wizualnej, tekstowej, dźwiękowej – staje się kluczowa dla rozwoju zaawansowanych systemów sztucznej inteligencji. W ostatnim czasie obserwujemy rosnące zapotrzebowanie na modele wizualno-językowe (VLM) zdolne do złożonego rozumowania, wykraczającego poza prostą percepcję treści wizualnych. Podczas gdy osiągnięcia w dziedzinie długiego rozumowania i skalowalnego uczenia ze wzmocnieniem (RL) znacząco poprawiły możliwości rozwiązywania problemów przez duże modele językowe (LLM), środowisko open-source nadal borykało się z brakiem multimodalnego modelu rozumowania, który dorównywałby skutecznością swoim zamkniętoźródłowym odpowiednikom o porównywalnej skali parametrów.

Przełom w tej dziedzinie ogłosili naukowcy z Zhipu AI i Uniwersytetu Tsinghua, prezentując GLM-4.1V-Thinking. Ten nowatorski VLM został zaprojektowany, aby podnieść poprzeczkę w ogólnym rozumieniu i rozumowaniu multimodalnym. Kluczowym elementem ich podejścia jest wprowadzenie Reinforcement Learning with Curriculum Sampling (RLCS), metody, która ma na celu pełne wykorzystanie potencjału modelu. To zaowocowało znaczącą poprawą w obszarach takich jak rozwiązywanie problemów STEM, rozumienie wideo, rozpoznawanie treści, kodowanie, ugruntowanie (grounding), agenci oparty na GUI oraz rozumienie długich dokumentów.

Architektura i innowacje

GLM-4.1V-Thinking, a w szczególności jego odblokowana wersja GLM-4.1V-9B-Thinking, ustanowił nowy punkt odniesienia wśród modeli o podobnym rozmiarze, często dorównując, a nawet przewyższając wydajnością modele zamkniętoźródłowe, takie jak GPT-4o, w wymagających zadaniach – zwłaszcza w rozumieniu długich dokumentów i rozumowaniu STEM. Model ten składa się z trzech głównych komponentów: encodera wizyjnego, adaptera MLP i dekodera LLM.

Innowacje technologiczne stojące za GLM-4.1V-Thinking są istotne. Wykorzystuje on AIMv2-Huge jako encoder wizyjny oraz GLM jako LLM, zastępując oryginalne konwolucje 2D konwolucjami 3D do próbkowania czasowego. Wprowadzenie 2D-RoPE umożliwia modelowi obsługę dowolnych rozdzielczości obrazu i proporcji, w tym ekstremalnych (ponad 200:1) oraz wysokich rozdzielczości (przekraczających 4K). Co więcej, rozszerzenie RoPE do 3D-RoPE w LLM poprawia przestrzenne rozumienie w kontekstach multimodalnych. W przypadku modelowania czasowego w wideo, do każdego tokenu ramki są dodawane indeksy czasu, a znaczniki czasu są kodowane jako ciągi, co pomaga modelowi zrozumieć rzeczywiste luki czasowe między klatkami.

Trening i wydajność

W fazie wstępnego treningu naukowcy wykorzystali różnorodne zbiory danych, łącząc duże korpusy akademickie z przeplatanymi danymi obrazowo-tekstowymi bogatymi w wiedzę. Włączenie czystych danych tekstowych umożliwiło zachowanie kluczowych zdolności językowych modelu, co przełożyło się na lepszą wydajność niż inne najnowocześniejsze modele bazowe o podobnym rozmiarze. Etap nadzorowanego dostrajania przekształcił bazowy VLM w model zdolny do długich wnioskowań CoT (Chain-of-Thought) przy użyciu starannie dobranego korpusu long-CoT, obejmującego zarówno weryfikowalne problemy (np. STEM), jak i nieweryfikowalne zadania (np. instrukcje).

Końcowa faza uczenia ze wzmocnieniem (RL) wykorzystała połączenie RLVR i RLHF do przeprowadzenia treningu na dużą skalę we wszystkich domenach multimodalnych, w tym w rozwiązywaniu problemów STEM, ugruntowaniu, optycznym rozpoznawaniu znaków, agentach GUI i wielu innych.

Szczególnie imponujące są wyniki GLM-4.1V-9B-Thinking w testach porównawczych. Model ten przewyższa wszystkie konkurencyjne modele open-source poniżej 10 miliardów parametrów w zadaniach General VQA, obejmujących zarówno pojedyncze, jak i wielokrotne obrazy. Osiąga najwyższą wydajność w wymagających benchmarkach STEM, w tym MMMU_Val, MMMU_Pro, VideoMMMU i AI2D. W domenach OCR i wykresów model ustanawia nowe najlepsze wyniki na ChartQAPro i ChartMuseum. W rozumieniu długich dokumentów, GLM-4.1V-9B-Thinking przewyższa wszystkie inne modele testowane na MMLongBench, jednocześnie ustanawiając nowe standardy w agentach GUI i zadaniach multimodalnego kodowania. Wreszcie, model wykazuje solidną wydajność w rozumieniu wideo, przewyższając benchmarki VideoMME, MMVU i MotionBench.

Wyzwania i przyszłość

Chociaż GLM-4.1V-Thinking stanowi znaczący krok w kierunku ogólnego rozumowania multimodalnego, a jego model 9-miliardowy przewyższa nawet większe, 70-miliardowe modele, pozostają pewne ograniczenia. Należą do nich niespójne poprawy jakości rozumowania poprzez RL, niestabilność podczas treningu oraz trudności z bardziej kompleksowymi przypadkami. Przyszłe prace badawcze powinny koncentrować się na poprawie nadzoru i oceny rozumowania modelu, z modelami nagród oceniającymi pośrednie etapy rozumowania, jednocześnie wykrywającymi halucynacje i niespójności logiczne. Kluczowe jest również badanie strategii zapobiegających „reward hacking” w zadaniach subiektywnej oceny, aby osiągnąć prawdziwie ogólną inteligencję. Prace te wskazują, że mimo imponujących postępów, droga do w pełni autonomicznych i niezawodnych systemów AI wciąż wymaga znaczących inwestycji w badania i rozwój.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *