AudioGen AIOpen Source

Microsoft otwiera kod VibeVoice-1.5B: model TTS generujący 90 minut mowy z czterema głosami

Microsoft zaprezentował VibeVoice-1.5B, model open-source, który wyznacza nowe standardy w dziedzinie technologii zamiany tekstu na mowę (TTS). Umożliwia on generowanie ekspresywnego, długiego audio z udziałem wielu mówców. Model, udostępniony na licencji MIT, charakteryzuje się dużą skalowalnością i elastycznością w zastosowaniach badawczych.

VibeVoice-1.5B to nie tylko kolejny silnik TTS. To platforma zaprojektowana do generowania do 90 minut nieprzerwanego dźwięku o naturalnym brzmieniu, obsługująca do czterech różnych mówców jednocześnie, a nawet radząca sobie z syntezą międzyjęzykową i śpiewem. Dzięki architekturze strumieniowej i zapowiedzianemu większemu modelowi 7B, VibeVoice-1.5B ma szansę stać się ważnym krokiem naprzód w dziedzinie konwersacyjnego audio opartego na sztucznej inteligencji, podcastingu i badań nad syntetycznym głosem.

Kluczowe cechy VibeVoice-1.5B

  • Obszerny kontekst i obsługa wielu mówców: VibeVoice-1.5B może syntetyzować do 90 minut mowy z udziałem do czterech różnych mówców w jednej sesji, co znacznie przekracza typowy limit 1-2 mówców w tradycyjnych modelach TTS.
  • Jednoczesna generacja: Model nie tylko łączy klipy z pojedynczym głosem; został zaprojektowany do obsługi równoległych strumieni audio dla wielu mówców, naśladując naturalną rozmowę i zmiany kolejności wypowiedzi.
  • Synteza międzyjęzykowa i śpiewu: Chociaż model został przeszkolony głównie w języku angielskim i chińskim, jest zdolny do syntezy międzyjęzykowej, a nawet generowania śpiewu – cechy rzadko spotykane w poprzednich modelach TTS o otwartym kodzie źródłowym.
  • Licencja MIT: Pełny open source i przyjazny komercyjnie, z naciskiem na badania, transparentność i odtwarzalność.
  • Skalowalność dla przesyłania strumieniowego i długich form audio: Architektura jest przeznaczona do wydajnej syntezy długotrwałej i zapowiada nadchodzący model 7B z obsługą przesyłania strumieniowego, co jeszcze bardziej rozszerza możliwości w zakresie czasu rzeczywistego i wysokiej jakości TTS.
  • Emocje i ekspresja: Model jest chwalony za kontrolę emocji i naturalną ekspresję, co czyni go odpowiednim do zastosowań takich jak podcasty lub scenariusze konwersacyjne.

Architektura i szczegóły techniczne

Podstawą VibeVoice jest model LLM (Qwen2.5-1.5B) o 1,5 miliarda parametrów, który integruje się z dwoma nowatorskimi tokenizatorami – akustycznym i semantycznym – oba zaprojektowane do pracy z niską częstotliwością klatek (7,5 Hz) dla efektywności obliczeniowej i spójności w długich sekwencjach.

  • Tokenizator akustyczny: Wariant σ-VAE z lustrzaną strukturą enkodera-dekodera (każdy ~340M parametrów), osiągający downsampling 3200x z surowego dźwięku przy 24kHz.
  • Tokenizator semantyczny: Trenowany za pomocą zadania proxy ASR, ta architektura tylko z enkoderem odzwierciedla projekt tokenizatora akustycznego (pomijając komponenty VAE).
  • Głowica dekodera dyfuzji: Lekki (~123M parametrów) warunkowy moduł dyfuzji przewiduje cechy akustyczne, wykorzystując Classifier-Free Guidance (CFG) i DPM-Solver dla jakości percepcyjnej.
  • Curriculum długości kontekstu: Trening zaczyna się od 4 tys. tokenów i skaluje do 65 tys. tokenów, co umożliwia modelowi generowanie bardzo długich, spójnych segmentów audio.
  • Modelowanie sekwencji: LLM rozumie przepływ dialogu dla zmiany kolejności wypowiedzi, podczas gdy głowica dyfuzji generuje precyzyjne szczegóły akustyczne – oddzielając semantykę i syntezę, zachowując tożsamość mówcy przez długi czas.

Ograniczenia modelu i odpowiedzialne użytkowanie

  • Tylko angielski i chiński: Model jest trenowany wyłącznie na tych językach; inne języki mogą generować niezrozumiałe lub obraźliwe dane wyjściowe.
  • Brak nakładających się wypowiedzi: Chociaż obsługuje zmianę kolejności wypowiedzi, VibeVoice-1.5B nie modeluje nakładających się wypowiedzi między mówcami.
  • Tylko mowa: Model nie generuje dźwięków tła, Foley ani muzyki – wyjście audio to wyłącznie mowa.
  • Ryzyko prawne i etyczne: Microsoft wyraźnie zabrania używania do podszywania się pod głos, dezinformacji lub omijania uwierzytelniania. Użytkownicy muszą przestrzegać prawa i ujawniać treści generowane przez sztuczną inteligencję.
  • Nie do profesjonalnych zastosowań w czasie rzeczywistym: Chociaż wydajny, ta wersja nie jest zoptymalizowana pod kątem niskich opóźnień, interaktywnych lub transmisji na żywo; to jest cel dla wkrótce dostępnego wariantu 7B.

Podsumowanie

VibeVoice-1.5B od Microsoftu to przełom w otwartym TTS: skalowalny, ekspresyjny i wielogłosowy, z lekką architekturą opartą na dyfuzji, która odblokowuje długie formy syntezy dźwięku konwersacyjnego dla badaczy i twórców oprogramowania open source. Chociaż obecnie użytkowanie jest skoncentrowane na badaniach i ograniczone do języka angielskiego/chińskiego, możliwości modelu – oraz obietnica nadchodzących wersji – sygnalizują zmianę paradygmatu w sposobie, w jaki sztuczna inteligencja może generować i wchodzić w interakcje z syntetyczną mową.

Dla zespołów technicznych, twórców treści i entuzjastów sztucznej inteligencji VibeVoice-1.5B to narzędzie, które trzeba zbadać w następnej generacji aplikacji do syntezy głosu – dostępne teraz na Hugging Face i GitHub, z przejrzystą dokumentacją i otwartą licencją.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *