Microsoft otwiera kod VibeVoice-1.5B: model TTS generujący 90 minut mowy z czterema głosami
Microsoft zaprezentował VibeVoice-1.5B, model open-source, który wyznacza nowe standardy w dziedzinie technologii zamiany tekstu na mowę (TTS). Umożliwia on generowanie ekspresywnego, długiego audio z udziałem wielu mówców. Model, udostępniony na licencji MIT, charakteryzuje się dużą skalowalnością i elastycznością w zastosowaniach badawczych.
VibeVoice-1.5B to nie tylko kolejny silnik TTS. To platforma zaprojektowana do generowania do 90 minut nieprzerwanego dźwięku o naturalnym brzmieniu, obsługująca do czterech różnych mówców jednocześnie, a nawet radząca sobie z syntezą międzyjęzykową i śpiewem. Dzięki architekturze strumieniowej i zapowiedzianemu większemu modelowi 7B, VibeVoice-1.5B ma szansę stać się ważnym krokiem naprzód w dziedzinie konwersacyjnego audio opartego na sztucznej inteligencji, podcastingu i badań nad syntetycznym głosem.
Kluczowe cechy VibeVoice-1.5B
- Obszerny kontekst i obsługa wielu mówców: VibeVoice-1.5B może syntetyzować do 90 minut mowy z udziałem do czterech różnych mówców w jednej sesji, co znacznie przekracza typowy limit 1-2 mówców w tradycyjnych modelach TTS.
- Jednoczesna generacja: Model nie tylko łączy klipy z pojedynczym głosem; został zaprojektowany do obsługi równoległych strumieni audio dla wielu mówców, naśladując naturalną rozmowę i zmiany kolejności wypowiedzi.
- Synteza międzyjęzykowa i śpiewu: Chociaż model został przeszkolony głównie w języku angielskim i chińskim, jest zdolny do syntezy międzyjęzykowej, a nawet generowania śpiewu – cechy rzadko spotykane w poprzednich modelach TTS o otwartym kodzie źródłowym.
- Licencja MIT: Pełny open source i przyjazny komercyjnie, z naciskiem na badania, transparentność i odtwarzalność.
- Skalowalność dla przesyłania strumieniowego i długich form audio: Architektura jest przeznaczona do wydajnej syntezy długotrwałej i zapowiada nadchodzący model 7B z obsługą przesyłania strumieniowego, co jeszcze bardziej rozszerza możliwości w zakresie czasu rzeczywistego i wysokiej jakości TTS.
- Emocje i ekspresja: Model jest chwalony za kontrolę emocji i naturalną ekspresję, co czyni go odpowiednim do zastosowań takich jak podcasty lub scenariusze konwersacyjne.
Architektura i szczegóły techniczne
Podstawą VibeVoice jest model LLM (Qwen2.5-1.5B) o 1,5 miliarda parametrów, który integruje się z dwoma nowatorskimi tokenizatorami – akustycznym i semantycznym – oba zaprojektowane do pracy z niską częstotliwością klatek (7,5 Hz) dla efektywności obliczeniowej i spójności w długich sekwencjach.
- Tokenizator akustyczny: Wariant σ-VAE z lustrzaną strukturą enkodera-dekodera (każdy ~340M parametrów), osiągający downsampling 3200x z surowego dźwięku przy 24kHz.
- Tokenizator semantyczny: Trenowany za pomocą zadania proxy ASR, ta architektura tylko z enkoderem odzwierciedla projekt tokenizatora akustycznego (pomijając komponenty VAE).
- Głowica dekodera dyfuzji: Lekki (~123M parametrów) warunkowy moduł dyfuzji przewiduje cechy akustyczne, wykorzystując Classifier-Free Guidance (CFG) i DPM-Solver dla jakości percepcyjnej.
- Curriculum długości kontekstu: Trening zaczyna się od 4 tys. tokenów i skaluje do 65 tys. tokenów, co umożliwia modelowi generowanie bardzo długich, spójnych segmentów audio.
- Modelowanie sekwencji: LLM rozumie przepływ dialogu dla zmiany kolejności wypowiedzi, podczas gdy głowica dyfuzji generuje precyzyjne szczegóły akustyczne – oddzielając semantykę i syntezę, zachowując tożsamość mówcy przez długi czas.
Ograniczenia modelu i odpowiedzialne użytkowanie
- Tylko angielski i chiński: Model jest trenowany wyłącznie na tych językach; inne języki mogą generować niezrozumiałe lub obraźliwe dane wyjściowe.
- Brak nakładających się wypowiedzi: Chociaż obsługuje zmianę kolejności wypowiedzi, VibeVoice-1.5B nie modeluje nakładających się wypowiedzi między mówcami.
- Tylko mowa: Model nie generuje dźwięków tła, Foley ani muzyki – wyjście audio to wyłącznie mowa.
- Ryzyko prawne i etyczne: Microsoft wyraźnie zabrania używania do podszywania się pod głos, dezinformacji lub omijania uwierzytelniania. Użytkownicy muszą przestrzegać prawa i ujawniać treści generowane przez sztuczną inteligencję.
- Nie do profesjonalnych zastosowań w czasie rzeczywistym: Chociaż wydajny, ta wersja nie jest zoptymalizowana pod kątem niskich opóźnień, interaktywnych lub transmisji na żywo; to jest cel dla wkrótce dostępnego wariantu 7B.
Podsumowanie
VibeVoice-1.5B od Microsoftu to przełom w otwartym TTS: skalowalny, ekspresyjny i wielogłosowy, z lekką architekturą opartą na dyfuzji, która odblokowuje długie formy syntezy dźwięku konwersacyjnego dla badaczy i twórców oprogramowania open source. Chociaż obecnie użytkowanie jest skoncentrowane na badaniach i ograniczone do języka angielskiego/chińskiego, możliwości modelu – oraz obietnica nadchodzących wersji – sygnalizują zmianę paradygmatu w sposobie, w jaki sztuczna inteligencja może generować i wchodzić w interakcje z syntetyczną mową.
Dla zespołów technicznych, twórców treści i entuzjastów sztucznej inteligencji VibeVoice-1.5B to narzędzie, które trzeba zbadać w następnej generacji aplikacji do syntezy głosu – dostępne teraz na Hugging Face i GitHub, z przejrzystą dokumentacją i otwartą licencją.
