Microsoft otwiera kod VibeVoice-1.5B: model TTS generujący 90 minut mowy z czterema głosami

2025-08-28 AI Sight

Microsoft zaprezentował VibeVoice-1.5B, model open-source, który wyznacza nowe standardy w dziedzinie technologii zamiany tekstu na mowę (TTS). Umożliwia on generowanie ekspresywnego, długiego audio z udziałem wielu mówców. Model, udostępniony na licencji MIT, charakteryzuje się dużą skalowalnością i elastycznością w zastosowaniach badawczych.

VibeVoice-1.5B to nie tylko kolejny silnik TTS. To platforma zaprojektowana do generowania do 90 minut nieprzerwanego dźwięku o naturalnym brzmieniu, obsługująca do czterech różnych mówców jednocześnie, a nawet radząca sobie z syntezą międzyjęzykową i śpiewem. Dzięki architekturze strumieniowej i zapowiedzianemu większemu modelowi 7B, VibeVoice-1.5B ma szansę stać się ważnym krokiem naprzód w dziedzinie konwersacyjnego audio opartego na sztucznej inteligencji, podcastingu i badań nad syntetycznym głosem.

Kluczowe cechy VibeVoice-1.5B

Obszerny kontekst i obsługa wielu mówców: VibeVoice-1.5B może syntetyzować do 90 minut mowy z udziałem do czterech różnych mówców w jednej sesji, co znacznie przekracza typowy limit 1-2 mówców w tradycyjnych modelach TTS.
Jednoczesna generacja: Model nie tylko łączy klipy z pojedynczym głosem; został zaprojektowany do obsługi równoległych strumieni audio dla wielu mówców, naśladując naturalną rozmowę i zmiany kolejności wypowiedzi.
Synteza międzyjęzykowa i śpiewu: Chociaż model został przeszkolony głównie w języku angielskim i chińskim, jest zdolny do syntezy międzyjęzykowej, a nawet generowania śpiewu – cechy rzadko spotykane w poprzednich modelach TTS o otwartym kodzie źródłowym.
Licencja MIT: Pełny open source i przyjazny komercyjnie, z naciskiem na badania, transparentność i odtwarzalność.
Skalowalność dla przesyłania strumieniowego i długich form audio: Architektura jest przeznaczona do wydajnej syntezy długotrwałej i zapowiada nadchodzący model 7B z obsługą przesyłania strumieniowego, co jeszcze bardziej rozszerza możliwości w zakresie czasu rzeczywistego i wysokiej jakości TTS.
Emocje i ekspresja: Model jest chwalony za kontrolę emocji i naturalną ekspresję, co czyni go odpowiednim do zastosowań takich jak podcasty lub scenariusze konwersacyjne.

Architektura i szczegóły techniczne

Podstawą VibeVoice jest model LLM (Qwen2.5-1.5B) o 1,5 miliarda parametrów, który integruje się z dwoma nowatorskimi tokenizatorami – akustycznym i semantycznym – oba zaprojektowane do pracy z niską częstotliwością klatek (7,5 Hz) dla efektywności obliczeniowej i spójności w długich sekwencjach.

Tokenizator akustyczny: Wariant σ-VAE z lustrzaną strukturą enkodera-dekodera (każdy ~340M parametrów), osiągający downsampling 3200x z surowego dźwięku przy 24kHz.
Tokenizator semantyczny: Trenowany za pomocą zadania proxy ASR, ta architektura tylko z enkoderem odzwierciedla projekt tokenizatora akustycznego (pomijając komponenty VAE).
Głowica dekodera dyfuzji: Lekki (~123M parametrów) warunkowy moduł dyfuzji przewiduje cechy akustyczne, wykorzystując Classifier-Free Guidance (CFG) i DPM-Solver dla jakości percepcyjnej.
Curriculum długości kontekstu: Trening zaczyna się od 4 tys. tokenów i skaluje do 65 tys. tokenów, co umożliwia modelowi generowanie bardzo długich, spójnych segmentów audio.
Modelowanie sekwencji: LLM rozumie przepływ dialogu dla zmiany kolejności wypowiedzi, podczas gdy głowica dyfuzji generuje precyzyjne szczegóły akustyczne – oddzielając semantykę i syntezę, zachowując tożsamość mówcy przez długi czas.

Ograniczenia modelu i odpowiedzialne użytkowanie

Tylko angielski i chiński: Model jest trenowany wyłącznie na tych językach; inne języki mogą generować niezrozumiałe lub obraźliwe dane wyjściowe.
Brak nakładających się wypowiedzi: Chociaż obsługuje zmianę kolejności wypowiedzi, VibeVoice-1.5B nie modeluje nakładających się wypowiedzi między mówcami.
Tylko mowa: Model nie generuje dźwięków tła, Foley ani muzyki – wyjście audio to wyłącznie mowa.
Ryzyko prawne i etyczne: Microsoft wyraźnie zabrania używania do podszywania się pod głos, dezinformacji lub omijania uwierzytelniania. Użytkownicy muszą przestrzegać prawa i ujawniać treści generowane przez sztuczną inteligencję.
Nie do profesjonalnych zastosowań w czasie rzeczywistym: Chociaż wydajny, ta wersja nie jest zoptymalizowana pod kątem niskich opóźnień, interaktywnych lub transmisji na żywo; to jest cel dla wkrótce dostępnego wariantu 7B.

Podsumowanie

VibeVoice-1.5B od Microsoftu to przełom w otwartym TTS: skalowalny, ekspresyjny i wielogłosowy, z lekką architekturą opartą na dyfuzji, która odblokowuje długie formy syntezy dźwięku konwersacyjnego dla badaczy i twórców oprogramowania open source. Chociaż obecnie użytkowanie jest skoncentrowane na badaniach i ograniczone do języka angielskiego/chińskiego, możliwości modelu – oraz obietnica nadchodzących wersji – sygnalizują zmianę paradygmatu w sposobie, w jaki sztuczna inteligencja może generować i wchodzić w interakcje z syntetyczną mową.

Dla zespołów technicznych, twórców treści i entuzjastów sztucznej inteligencji VibeVoice-1.5B to narzędzie, które trzeba zbadać w następnej generacji aplikacji do syntezy głosu – dostępne teraz na Hugging Face i GitHub, z przejrzystą dokumentacją i otwartą licencją.

Kluczowe cechy VibeVoice-1.5B

Architektura i szczegóły techniczne

Ograniczenia modelu i odpowiedzialne użytkowanie

Podsumowanie

Udostępnij:

Zobacz również

Apple testuje modele AI dorównujące ChatGPT, ale wciąż ostrożnie podchodzi do generatywnej sztucznej inteligencji

xAI udostępnia API Grok Voice Agent, otwierając drzwi do aplikacji głosowych w czasie rzeczywistym

Sztuczna inteligencja wciąż ma problemy z naśladowaniem ekspresji ludzkiej mowy

Dodaj komentarz Anuluj pisanie odpowiedzi