Xiaomi prezentuje MiMo-Audio: przełom w modelowaniu mowy dzięki 7-miliardowemu modelowi językowemu
Zespół MiMo z Xiaomi ogłosił premierę MiMo-Audio, modelu audio-językowego o 7 miliardach parametrów. Model ten realizuje cel przewidywania następnego tokena w przeplatanym tekście i dyskretyzowanej mowie, co pozwala na przeskalowanie wstępnego treningu do ponad 100 milionów godzin audio. Co istotne, MiMo-Audio nie polega na specjalnych głowicach zadaniowych ani stratnych tokenach akustycznych. Zamiast tego wykorzystuje on dedykowany tokenizer RVQ (residual vector quantization), który ma na celu zarówno wierność semantyczną, jak i wysoką jakość rekonstrukcji.
Architektura i działanie
Tokenizer działa z częstotliwością 25 Hz i generuje 8 warstw RVQ (≈200 tokenów/s), dając LM dostęp do „bezstratnych” cech mowy, które może modelować autoregresywnie obok tekstu. Aby poradzić sobie z niedopasowaniem szybkości audio/tekst, system pakuje cztery kroki czasowe na łatkę na potrzeby LM (próbkowanie w dół 25 Hz → 6,25 Hz), a następnie rekonstruuje strumienie RVQ o pełnej szybkości za pomocą przyczynowego dekodera łatek. Opóźniony, wielowarstwowy schemat generowania RVQ rozkłada prognozy na poszczególne kodeksy, aby ustabilizować syntezę i uwzględnić zależności między warstwami. Wszystkie trzy części — enkoder łatek, szkielet MiMo-7B i dekoder łatek — są szkolone przy użyciu jednego celu następnego tokena.
Trening przebiega w dwóch dużych fazach: (1) etap „rozumienia”, który optymalizuje stratę tokenów tekstowych w przeplatanych korpusach mowy i tekstu, oraz (2) wspólny etap „rozumienia + generowania”, który włącza straty audio dla kontynuacji mowy, zadań S2T/T2S i danych w stylu instrukcji. W raporcie podkreślono próg obliczeniowy/danych, w którym zachowanie few-shot wydaje się „włączać”, co odpowiada krzywym wyłaniania obserwowanym w dużych LM tylko z tekstem.
Benchmarki i ocena
MiMo-Audio został oceniony na zestawach do wnioskowania o mowie (np. SpeechMMLU) i szerokich punktach odniesienia do rozumienia dźwięku (np. MMAU), raportując wysokie wyniki w zakresie mowy, dźwięku i muzyki oraz zmniejszoną „lukę modalności” między ustawieniami tylko tekstowymi i mowy/mowy. Xiaomi udostępniło również MiMo-Audio-Eval, publiczny zestaw narzędzi do odtworzenia tych wyników. Dostępne są również demonstracje typu „posłuchaj i odpowiedz” (kontynuacja mowy, konwersja głosu/emocji, odszumianie i tłumaczenie mowy).
Kluczowe innowacje i wnioski
Podejście jest celowo proste — bez wielogłowicowej wieży zadań, bez dedykowanych celów ASR/TTS w czasie wstępnego treningu — po prostu przewidywanie następnego tokena w stylu GPT na podstawie bezstratnych tokenów audio plus tekstu. Kluczowe pomysły inżynieryjne to (i) tokenizer, którego LM może faktycznie używać bez odrzucania prozodii i tożsamości mówcy; (ii) paczowanie w celu utrzymania długości sekwencji na rozsądnym poziomie; oraz (iii) opóźnione dekodowanie RVQ w celu zachowania jakości w czasie generowania. Dla zespołów budujących agentów mówionych, wybory te przekładają się na edycję mowy na mowę z kilkoma przykładami i solidną kontynuację mowy przy minimalnym dostrajaniu specyficznym dla zadania.
Podsumowanie
MiMo-Audio udowadnia, że wysokiej wierności, oparte na RVQ „bezstratne” tokenizowanie w połączeniu ze wstępnym treningiem następnego tokena na dużą skalę wystarcza, aby odblokować inteligencję mowy z kilkoma przykładami bez specjalnych głowic zadaniowych. Stos 7B — tokenizer → enkoder łatek → LLM → dekoder łatek — niweluje lukę w szybkości audio/tekst (25→6,25 Hz) i zachowuje prozodię i tożsamość mówcy poprzez opóźnione, wielowarstwowe dekodowanie RVQ. Empirycznie model zawęża lukę modalności tekst↔mowa, uogólnia się w oparciu o benchmarki mowy/dźwięku/muzyki oraz obsługuje edycję i kontynuację S2S w kontekście.
