Gen AIR & D

Uni-MoE-2.0-Omni: nowy krok w kierunku wszechstronnych modeli AI

Współczesne modele sztucznej inteligencji, mimo imponujących osiągnięć, często specjalizują się w jednej modalności – tekście, obrazie czy dźwięku. Wyzwaniem pozostaje stworzenie jednego, spójnego systemu zdolnego do efektywnego przetwarzania i rozumienia wszystkich tych typów danych. Odpowiedzią na to dążenie jest Uni-MoE-2.0-Omni, opracowany przez zespół z Harbin Institute of Technology, Shenzhen.

Model Uni-MoE-2.0-Omni to w pełni otwarty, multimodalny system, bazujący na architekturze transformatora Qwen2.5-7B. Kluczowym elementem jest zastosowanie architektury Mixture of Experts (MoE) z dynamicznym routingiem pojemności, co pozwala na efektywne skalowanie i zarządzanie zasobami obliczeniowymi. Model został wytrenowany od podstaw na zbiorze około 75 miliardów starannie dobranych multimodalnych tokenów, co pozwoliło mu na opanowanie rozumienia tekstu, obrazów, dźwięku i wideo, a także generowania obrazów, tekstu i mowy.

Centralny hub językowy i ujednolicona architektura

Sercem Uni-MoE-2.0-Omni jest transformator Qwen2.5-7B, który działa jako centralny hub językowy. Wokół niego zintegrowano ujednolicony koder mowy, odpowiedzialny za przekształcanie różnorodnych danych audio – od dźwięków otoczenia, przez mowę, po muzykę – w spójną przestrzeń reprezentacji. Podobnie, wstępnie wytrenowane kodery wizualne przetwarzają obrazy i klatki wideo, a następnie przekazują sekwencje tokenów do tego samego transformatora. Dzięki temu, wszystkie modalności są konwertowane na sekwencje tokenów, które współdzielą ujednolicony interfejs z modelem językowym. Taka konstrukcja upraszcza fuzję między modalnościami, czyniąc model językowy głównym kontrolerem zarówno rozumienia, jak i generowania treści.

Innowacyjne podejścia do przetwarzania danych

Architektura Uni-MoE-2.0-Omni została zaprojektowana tak, aby wspierać dziesięć różnych konfiguracji wejściowych, w tym kombinacje obrazu z tekstem, wideo z mową, a także trójmodalne układy. Wyrównanie multimodalne jest realizowane przez mechanizm Omni Modality 3D RoPE, który koduje strukturę czasoprzestrzenną bezpośrednio w rotacyjnych osadzaniach pozycyjnych. Zamiast jednowymiarowych pozycji dla tekstu, system przypisuje trzy współrzędne – czas, wysokość i szerokość – dla strumieni wizualnych i audio, oraz czas dla mowy. To pozwala transformatorowi na precyzyjne śledzenie, kiedy i gdzie każdy token się pojawia, co ma kluczowe znaczenie dla zadań rozumienia wideo i wnioskowania wizualno-audio.

Zaawansowana architektura MoE zastępuje standardowe bloki MLP stosami ekspertów, składającymi się z trzech typów: eksperci pustelnicy, eksperci kierowani (specyficzni dla modalności) i eksperci współdzieleni. Sieć routingu dynamicznie wybiera, których ekspertów aktywować na podstawie tokenu wejściowego, co zapewnia specjalizację bez ponoszenia pełnych kosztów gęstego modelu.

Wielostopniowy proces treningowy

Proces treningowy Uni-MoE-2.0-Omni jest zorganizowany w kilku etapach. Począwszy od wstępnego treningu multimodalnego skoncentrowanego na języku, który wykorzystuje sparowane korpusy obrazu z tekstem, audio z tekstem i wideo z tekstem. Model uczy się w ten sposób rzutować każdą modalność w przestrzeń semantyczną zgodną z językiem. Kolejnym krokiem jest progresywna faza nadzorowanego dostrajania (SFT), która aktywuje ekspertów specyficznych dla poszczególnych modalności. Wprowadzone są również specjalne tokeny kontrolne, umożliwiające modelowi wykonywanie zadań takich jak synteza mowy warunkowana tekstem czy generowanie obrazów w ramach tego samego interfejsu językowego. Po SFT, faza równoważenia danych z niższym współczynnikiem uczenia stabilizuje działanie modelu. Aby odblokować zdolność do wnioskowania na długich sekwencjach, Uni-MoE-2.0-Omni wykorzystuje iteracyjną optymalizację polityki, bazującą na GSPO i DPO, co prowadzi do wariantu Uni-MoE-2.0-Thinking.

Generowanie mowy i obrazów

Uni-MoE-2.0-Omni integruje generowanie mowy i obrazów w spójny sposób. Moduł MoE TTS (Text-to-Speech) oparty na kontekście, wykorzystuje tokeny kontrolne emitowane przez LLM, które opisują barwę, styl i język, wraz z treścią tekstową. Następnie generuje dyskretne tokeny audio, dekodowane w przebiegi, co sprawia, że synteza mowy jest zadaniem pierwszej klasy. W przypadku generowania obrazów, transformator dyfuzyjny jest warunkowany zarówno tokenami zadań, jak i tokenami obrazów, co umożliwia generowanie i edycję obrazów zgodnie z instrukcjami.

Imponujące wyniki benchmarków

Uni-MoE-2.0-Omni został poddany ocenie na 85 benchmarkach multimodalnych, obejmujących obraz, tekst, wideo, audio oraz wnioskowanie krzyżowe i trójmodalne. Wyniki są obiecujące: model przewyższa Qwen2.5-Omni na ponad 50 z 76 współdzielonych zadań, pomimo tego, że Qwen2.5-Omni trenowano na znacząco większej liczbie tokenów (1.2 biliona). Oznacza to średni wzrost o około 7% w zakresie rozumienia wideo, 7% w rozumieniu omnimodalnym (w tym na benchmarkach OmniVideoBench i WorldSense) oraz około 4% w wnioskowaniu audiowizualnym. W przetwarzaniu długich sekwencji mowy, Uni-MoE-2.0-Omni redukuje współczynnik błędu słów (WER) o 4.2% w porównaniu do standardowych metod.

Te osiągnięcia świadczą o tym, że Uni-MoE-2.0-Omni stanowi znaczący krok naprzód w dążeniu do stworzenia prawdziwie wszechstronnej sztucznej inteligencji, zdolnej do płynnego i efektywnego przetwarzania różnych form informacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *