Abstrakcyjna wizualizacja multimodalnego rozumowania AI ReVisual-R1: tekstura, obrazy, połączone węzły, głębia, inteligencja.

ReVisual-R1: Nowe otwarcie w multimodalnym rozumowaniu AI

2025-07-02 AI Sight

Wraz z dynamicznym rozwojem sztucznej inteligencji, modele językowe osiągnęły imponujące zdolności w przetwarzaniu tekstu. Jednakże, przeniesienie tej biegłości na płaszczyznę multimodalną, obejmującą zarówno dane tekstowe, jak i wizualne, stanowiło dotąd poważne wyzwanie. Mimo obiecujących eksperymentów z technikami uczenia ze wzmocnieniem (RL) w modelach multimodalnych językowych (MLLMs), pełne zrealizowanie ich potencjału w zakresie złożonego rozumowania okazywało się trudne.

Istniejące MLLMs często produkowały krótkie odpowiedzi, pozbawione głębokiej argumentacji. Ta luka w zdolnościach doprowadziła do poszukiwania nowych strategii, które pozwoliłyby na znaczące ulepszenie wizualnego rozumowania i generowanie bardziej szczegółowych, spójnych rezultatów. W tym kontekście, naukowcy z Uniwersytetu Tsinghua, Uniwersytetu Jiao Tong w Szanghaju oraz Laboratorium Sztucznej Inteligencji w Szanghaju zaprezentowali ReVisual-R1 – otwarty model MLLM, który może zrewolucjonizować podejście do multimodalnego rozumowania.

Innowacyjne fundamenty ReVisual-R1

ReVisual-R1, model o 7 miliardach parametrów, został stworzony w oparciu o trzy kluczowe spostrzeżenia. Po pierwsze, staranne wstępne szkolenie wyłącznie na danych tekstowych (ang. text-only pretraining) zapewnia solidne podstawy, przewyższając wiele istniejących MLLM-ów jeszcze przed zastosowaniem uczenia ze wzmocnieniem. To podkreśla znaczenie jakości i złożoności danych tekstowych w budowaniu głębokich zdolności rozumowania.

Po drugie, badacze zidentyfikowali problem stagnacji gradientu w powszechnie stosowanym algorytmie GRPO (ang. Generalized Reinforcement for Policy Optimization). Aby temu zaradzić, opracowali nowatorską metodę nazwaną Priorytetowym Destylacją Korzyści (ang. Prioritized Advantage Distillation, PAD). PAD umożliwia bardziej efektywne i stabilne uczenie, zapobiegając zatrzymywaniu się procesu treningowego i skupiając się na generowaniu wysokiej jakości odpowiedzi.

Po trzecie, kluczowym elementem okazało się dodanie końcowej fazy uczenia ze wzmocnieniem, również opartej wyłącznie na tekście, po wcześniej przeprowadzonej fazie multimodalnego RL. To dwuetapowe podejście do RL znacząco poprawia zdolności rozumowania i płynność językową modelu, co jest zresztą jednym z jego wyróżników. Taka trzystopniowa metodologia treningowa – pretrening tekstowy, multimodalne RL oraz finalne tekstowe RL – stanowi innowacyjne połączenie wizualnego ugruntowania z głębokim rozumowaniem kognitywnym.

GRAMMAR – klucz do głębokiego rozumowania

Istotnym wkładem w rozwój ReVisual-R1 jest również stworzenie nowego zestawu danych GRAMMAR. Powstał on w odpowiedzi na dostrzeżony brak głębi w istniejących multimodalnych zbiorach danych, które okazywały się niewystarczające do szkolenia modeli zdolnych do zaawansowanego rozumowania. Zaskakująco, zestawy danych bazujące wyłącznie na tekście, takie jak DeepMath, wykazywały lepsze rezultaty zarówno w zadaniach tekstowych, jak i multimodalnych. Sugeruje to, że to właśnie złożoność tekstowa intensywniej stymuluje procesy rozumowania.

GRAMMAR łączy w sobie różnorodne próbki tekstowe i multimodalne, kuratorowane w wieloetapowym procesie. Dane te zasilają ramy treningowe Staged Reinforcement Optimization (SRO), które najpierw trenują model za pomocą multimodalnego uczenia ze wzmocnieniem, wzbogaconego przez wspomnianą metodę PAD. Dodatkowo, wprowadzono tu nagrodę za efektywną długość, niwelując nadmierną gadatliwość modelu. Całość kończy się fazą RL bazującą wyłącznie na tekście, w celu dalszego udoskonalenia rozumowania i płynności.

Skuteczność potwierdzona testami

Trening ReVisual-R1 odbywał się w ściśle określonym, trzystopniowym procesie. Rozpoczynano od danych tekstowych, budując fundament językowy, następnie przechodzono do multimodalnego uczenia ze wzmocnieniem dla rozwoju rozumowania wizualno-tekstowego, by zakończyć udoskonalaniem rozumowania i płynności za pomocą końcowej fazy tekstowego RL.

Model został poddany rygorystycznym testom na różnorodnych benchmarkach, gdzie znacząco przewyższył zarówno inne otwarte modele, jak i niektóre rozwiązania komercyjne, w zadaniach z zakresu rozumowania multimodalnego i matematycznego. ReVisual-R1 osiągnął wiodące wyniki w 9 z 10 przeprowadzonych testów. Badania ablacyjne (ang. ablation studies) potwierdziły kluczowe znaczenie przyjętej kolejności treningu oraz metody Prioritized Advantage Distillation, która pozwoliła skupić proces uczenia na generowaniu odpowiedzi najwyższej jakości, co zaowocowało znaczącą poprawą ogólnej wydajności.

ReVisual-R1 stanowi istotny krok naprzód w rozwoju otwartych MLLM-ów. Zamiast polegać wyłącznie na skalowaniu, stawia na przemyślany, trzystopniowy proces treningowy, włączając w to wysokiej jakości dane tekstowe jako fundament, stabilizującą technikę PAD w fazie multimodalnego RL oraz końcową fazę udoskonalania bazującą na tekście. To świadome podejście do kurikulum treningowego znacząco zwiększa wydajność. ReVisual-R1 wyznacza nowy punkt odniesienia wśród modeli 7B, wyróżniając się w zadaniach takich jak MathVerse czy AIME, a cała praca podkreśla, jak strukturyzowany trening może odblokować głębsze zdolności rozumowania w MLLM-ach.

Innowacyjne fundamenty ReVisual-R1

GRAMMAR – klucz do głębokiego rozumowania

Skuteczność potwierdzona testami

Udostępnij:

Zobacz również

Mistral rzuca wyzwanie gigantom AI, stawiając na otwarty kod i małe modele

OpenAI ulepsza Codex: Caribou z GPT-5.2 przyspieszy rozwój oprogramowania

Lokalna AI w natarciu: gpt-oss-20B i PC z RTX przenoszą moc modeli z chmury na biurko

Dodaj komentarz Anuluj pisanie odpowiedzi