Stream-Omni: Nowe podejście do wielomodalnej sztucznej inteligencji z Chin
Rozwój dużych modeli multimodalnych (LMM) otwiera nowe możliwości w dziedzinie sztucznej inteligencji, umożliwiając systemom przetwarzanie informacji pochodzących z tekstu, obrazu i mowy. Dotychczasowe próby integracji tych różnorodnych danych napotykały jednak na istotne trudności, zwłaszcza w kontekście ich spójnej reprezentacji i efektywnego mapowania.
Obecne modele LMM można podzielić na trzy główne kategorie: zorientowane na obraz (np. LLaVA), zorientowane na mowę (np. Mini-Omni, LLaMA-Omni) oraz te, które próbują działać w pełni multimodalnie (np. VITA-1.5, MiniCPM2.6-o). Większość z nich opiera się na łączeniu reprezentacji z indywidualnych enkoderów modalności, często poprzez proste konkatenowanie danych. Takie podejście wymaga jednak ogromnych zbiorów danych do nauki wyrównania modalności, co jest problematyczne ze względu na ograniczoną dostępność odpowiednich zbiorów trójmodalnych.
Stream-Omni: Semantyczna integracja modalności
Naukowcy z Uniwersytetu Chińskiej Akademii Nauk zaproponowali nowe rozwiązanie, model Stream-Omni, który ma na celu przezwyciężenie tych ograniczeń. Kluczowym elementem innowacji jest podejście skupiające się na semantycznym wyrównaniu modalności z tekstem, zamiast polegania wyłącznie na prostym konkatenowaniu danych. Stream-Omni wykorzystuje strukturę dużego modelu językowego (LLM) jako podstawę i integruje wizję oraz mowę w oparciu o ich relacje semantyczne z tekstem.
Dla obrazu, Stream-Omni stosuje konkatenację w wymiarze sekwencji, aby wyrównać wizję z tekstem. Co istotne, dla mowy wprowadzono warstwowe mapowanie oparte na CTC (Connectionist Temporal Classification), co umożliwia precyzyjne wyrównanie mowy z tekstem. Taka dwuwarstwowa integracja mowy, obecna zarówno na dolnej, jak i górnej warstwie trzonu LLM, umożliwia dwukierunkowe mapowanie między modalnościami mowy i tekstu.
Architektura i osiągnięcia
Architektura Stream-Omni wykorzystuje progresywne strategie wyrównywania modalności. W przypadku wizji i tekstu, model używa enkodera wizyjnego i warstwy projekcyjnej do ekstrakcji wizualnych reprezentacji. Korpus szkoleniowy został zbudowany automatycznie, z wykorzystaniem istniejących zbiorów danych, takich jak LLaVA dla par wizja-tekst, LibriSpeech i WenetSpeech dla danych mowa-tekst, oraz stworzono nowy zbiór InstructOmni poprzez konwersję istniejących instrukcji tekstowych na mowę.
W testach porównawczych, Stream-Omni wykazał znakomitą wydajność. W zadaniach związanych z rozumieniem wizualnym osiągnął wyniki porównywalne z zaawansowanymi modelami wizyjnymi, przewyższając jednocześnie VITA-1.5 i redukując interferencje między modalnościami. W interakcjach głosowych, Stream-Omni wykazał imponujące wyniki, wykorzystując znacznie mniej danych głosowych (23 tys. godzin) w porównaniu do modeli opartych na dyskretnych jednostkach mowy, takich jak SpeechGPT czy Moshi. Dodatkowo, w ewaluacjach interakcji głosowej z osadzeniem wizualnym na benchmarku SpokenVisIT, Stream-Omni ponownie przewyższył VITA-1.5, co świadczy o jego zdolności do rozumienia świata rzeczywistego. Jakość mapowania mowa-tekst również okazała się wyższa, osiągając lepszą wydajność w rozpoznawaniu mowy (ASR) na benchmarku LibriSpeech, zarówno pod względem dokładności, jak i czasu wnioskowania.
Wprowadzenie Stream-Omni oznacza istotny krok naprzód w dziedzinie wielomodalnej sztucznej inteligencji. Pokazuje on, że efektywne wyrównanie modalności może być osiągnięte poprzez ukierunkowane strategie oparte na relacjach semantycznych, eliminując potrzebę rozległych trójmodalnych danych szkoleniowych. Jest to nowy paradygmat dla wszechstronnych LMM, który może stanowić podstawę dla kolejnych innowacji w dziedzinie AI.
