LLMRozumowanie

VL-Cogito: Nowa era wielomodalnego rozumowania w AI

Współczesne wyzwania w dziedzinie sztucznej inteligencji coraz bardziej koncentrują się na zdolności modeli do integrowania i interpretowania informacji pochodzących z różnorodnych źródeł – od tekstu, przez obrazy, po złożone diagramy. Multimodalne rozumowanie, czyli właśnie ta umiejętność syntezy danych z wielu modalności, stanowi jeden z najbardziej wymagających obszarów badań. W odpowiedzi na te potrzeby DAMO Academy, należąca do Alibaba Group, wraz z partnerami, zaprezentowała VL-Cogito – innowacyjny Multimodal Large Language Model (MLLM), który znacząco podnosi poprzeczkę w tym zakresie.

Innowacje napędzające VL-Cogito

Klucz do przełomowych możliwości VL-Cogito leży w unikalnym frameworku Progressive Curriculum Reinforcement Learning (PCuRL). System ten został zaprojektowany, aby systematycznie eliminować niestabilność i luki domenowe, które do tej pory nękały modele wielomodalnego rozumowania. W PCuRL zastosowano dwie rewolucyjne innowacje:

Online Difficulty Soft Weighting (ODSW)

ODSW to mechanizm dynamicznego ważenia próbek treningowych, który dostosowuje ich znaczenie do stopnia trudności oraz rosnących możliwości modelu. W przeciwieństwie do tradycyjnych metod, które sztywno odrzucają próbki zbyt łatwe lub zbyt trudne, ODSW zapewnia, że każda instrukcja przyczynia się we właściwy sposób do aktualizacji gradientów. Dzięki temu model może płynnie przechodzić od prostych do coraz bardziej złożonych zagadnień. Trzy warianty tego mechanizmu koncentrują się na łatwych, średnich lub trudnych etapach uczenia, bazując na funkcji kawałkowymi i uwzględniając teorię uczalności oraz empiryczny rozkład trudności zadań.

Dynamic Length Reward (DyLR)

Tradycyjne systemy nagród za długość w modelach rozumowania opartych na uczeniu wzmocnionym często ustalały statyczny cel, co prowadziło do nadmiernego rozgadywania się modelu lub pomijania złożoności zadania. DyLR rozwiązuje ten problem, obliczając idealną długość odpowiedzi dla każdej instrukcji, oszacowaną na podstawie średniej długości poprawnych próbek wygenerowanych przez model. Krótkie i szybkie rozumowanie jest promowane dla prostszych zadań, natomiast te bardziej złożone motywują model do głębszej, wieloetapowej eksploracji, zapewniając optymalną równowagę między efektywnością a poprawnością.

Proces treningowy i zbieranie danych

Trening VL-Cogito w trybie wzmocnionego uczenia rozpoczyna się bezpośrednio od modelu Qwen2.5-VL-Instruct-7B, eliminując potrzebę kosztownego początkowego dostrajania nadzorowanego (SFT). Proces PCuRL jest jawnie podzielony na trzy sekwencyjne etapy uczenia wzmocnionego: łatwy, średni i trudny. W każdym etapie dane treningowe są losowo tasowane, a funkcja ważenia ODSW dostosowuje aktualizacje gradientów do docelowego poziomu trudności. W etapie trudnym aktywowany jest mechanizm DyLR, zachęcający do rozszerzania łańcucha rozumowania w sposób adaptacyjny.

Zestaw danych treningowych, starannie wyselekcjonowany, obejmuje 23 otwarte zbiory danych wielomodalnych z sześciu kategorii zadań, w tym rozumowanie matematyczne, logiczne, liczenie, rozumowanie naukowe, interpretacja wykresów oraz ogólne rozumienie obrazów. Wszystkie próbki zostały przeformułowane w otwarte pytania i odpowiedzi, aby uniknąć opierania się na powierzchownych wskazówkach z pytań wielokrotnego wyboru. Co istotne, próbki uznane za zbyt łatwe (rozwiązane z co najmniej 50% dokładnością przez Qwen2.5-VL-7B-Instruct w 8 próbach) zostały odrzucone, co gwarantuje, że zestaw treningowy zawierał wyłącznie autentycznie trudne zadania.

Wyniki i wydajność

VL-Cogito został poddany rygorystycznym testom na dziesięciu benchmarkach, w tym Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, MMMU, EMMA i MMStar. Model wykazał imponujące absolutne wzrosty dokładności w porównaniu do bazowego modelu, osiągając na przykład +7.6% na Geometry@3K, +5.5% na MathVista i +4.9% na LogicVista.

Co więcej, VL-Cogito osiągnął stan wiedzy (SOTA – State-Of-The-Art) lub co najmniej dorównał najlepszym wynikom na 6 z 10 benchmarków, szczególnie w wymagających zadaniach matematycznych i naukowych. Istotne jest, że modele, które wymagały początkowego rozgrzewką SFT lub stosowały wymuszone strategie ponownego przemyślenia, nie były w stanie przewyższyć solidnego, opartego na programie nauczania VL-Cogito.

Analiza komponentowa wykazała, że samo uczenie wzmocnione z programem nauczania podniosło średnie wyniki o 0.8% w porównaniu do bazowego GRPO, a dynamiczna nagroda za długość odpowiedzi dodatkowo poprawiła wydajność, szczególnie w trudnych domenach matematycznych. ODSW natomiast konsekwentnie przewyższało binarne filtrowanie trudnych próbek, zwłaszcza w przypadku niezbalansowanych danych treningowych.

Interesujące jest także to, że dynamiczne nagrody pozwoliły na wyższą średnią dokładność i lepszą efektywność tokenów niż statyczne nagrody. Dla zadań matematycznych i logicznych preferowana była dłuższa ścieżka rozumowania, natomiast dla naukowych i ogólnego rozumienia – krótsza, co doskonale odzwierciedlało zamiary projektantów. Etap trudny w PCuRL prowadzi do skoku w długości rozumowania i dokładności walidacyjnej, co wyróżnia VL-Cogito na tle innych podejść.

Studia przypadków i perspektywy

VL-Cogito wykazuje szczegółowe, autorefleksyjne i krokowe rozumowanie. W przypadku matematyki model potrafi dekomponować rozwiązania na granularne łańcuchy i aktywnie korygować błędy. W zadaniach klasyfikacyjnych, takich jak identyfikacja elementów na obrazach, metodycznie rozważa każdą opcję przed podjęciem decyzji, demonstrując silne wielomodalne zrozumienie i niezawodność procesu.

Innowacje w VL-Cogito potwierdzają kilka kluczowych spostrzeżeń: uczalność ma znaczenie, a próbki o pośredniej trudności optymalizują postęp modelu. Ekspozycja na wyzwania katalizuje głębokie rozumowanie, co oznacza, że nadmierne skupianie się na łatwych próbkach osłabia wydajność. Granularność nagród, uwzględniająca poprawność, format i długość odpowiedzi, sprzyja wyrafinowanemu rozumowaniu kontekstowemu. Co najważniejsze, architektura PCuRL pokazuje, że uczenie wzmocnione bez początkowego dostrajania SFT jest wykonalne i wysoce skuteczne.

Architektura VL-Cogito i zastosowane innowacje treningowe wyznaczają nowy standard dla wielomodalnego rozumowania. Projekt i empiryczna walidacja tego podejścia wskazują na ogólną drogę rozwoju solidnych modeli wielomodalnych, zdolnych do coraz bardziej złożonego i adaptacyjnego rozumowania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *