Audio

Chroma 1.0: Nowa era dialogowych systemów speech-to-speech z personalizacją głosu

W sektorze asystentów głosowych od lat dominuje architektura kaskadowa, polegająca na łączeniu trzech oddzielnych modułów: zamiany mowy na tekst (ASR), przetwarzania języka przez model LLM oraz końcowej syntezy mowy (TTS). Choć rozwiązanie to jest elastyczne, niesie ze sobą istotne ograniczenia – wprowadza zauważalne opóźnienia i, co ważniejsze, bezpowrotnie gubi bogactwo paralingwistyczne, takie jak emocje, akcentowanie czy unikalna barwa głosu użytkownika. Chroma 1.0 od FlashLabs przełamuje ten schemat, operując bezpośrednio na tokenach akustycznych i zachowując ciągłość tożsamości mówcy w wieloturowej konwersacji.

Koniec z pośrednictwem tekstu

Chroma 1.0 to model o skali 4 miliardów parametrów, który traktuje podobieństwo głosu nie jako opcjonalną funkcję, lecz jako fundament projektu. System wykorzystuje nowatorskie podejście mapowania sekwencji między dyskretnymi reprezentacjami mowy (kodekami). Zamiast polegać na transkrypcji jako jedynym nośniku sensu, warstwa logiczna modelu (tzw. Chroma Reasoner) analizuje dane multimodalne. Dzięki zastosowaniu mechanizmu TM-RoPE (Time-aligned Multimodal Rotary Position Embedding), system precyzyjnie wyrównuje czasowo sygnał audio z tekstem, co pozwala zachować rytm i dynamikę wypowiedzi, które w klasycznych systemach zostają spłaszczone do formy pisanej.

Klonowanie wydajniejsze od oryginału

Jednym z najbardziej zaskakujących wyników testów przedstawionych przez FlashLabs jest wskaźnik Speaker Similarity. W protokole SEED-TTS-EVAL Chroma osiągnęła wynik 0,81, co stanowi blisko 11-procentową poprawę względem ludzkiego punktu odniesienia (0,73). Oznacza to, że model potrafi wygenerować głos o cechach bardziej spójnych z wzorcem niż naturalne nagrania tego samego mówcy. Co istotne, personalizacja odbywa się na podstawie zaledwie kilku sekund próbki audio.

Sercem generowania mowy jest Chroma Backbone – model typu LLaMA o rozmiarze 1 miliarda parametrów, który wspierany jest przez lżejszy dekoder (100M). Zastosowanie hierarchicznej predykcji kodów RVQ pozwala na zachowanie struktury czasowej długich wypowiedzi przy jednoczesnym dopracowywaniu detali artykulacji w obrębie pojedynczych klatek. Taka architektura zapewnia płynność, która dotychczas była domeną wyłącznie zamkniętych, komercyjnych systemów.

Szybkość reakcji w interakcji na żywo

W przypadku systemów dialogowych kluczowym parametrem jest czas do uzyskania pierwszego tokena (TTFT). Chroma 1.0 wykazuje się tu imponującą responsywnością – całkowite opóźnienie wynosi około 147 milisekund. Osiągnięto to dzięki sprytnemu harmonogramowi przeplatania danych: na każdy wygenerowany przez moduł rozumujący token tekstowy, model mowy wytwarza dwa tokeny audio. Dzięki temu synteza mowy rozpoczyna się natychmiast, bez konieczności czekania na zakończenie generowania całego zdania.

Wydajność systemu potwierdza współczynnik Real Time Factor (RTF) na poziomie 0,43. W praktyce oznacza to, że model generuje odpowiedź ponad dwukrotnie szybciej, niż trwa jej odtworzenie. Jest to wynik solidny, zwłaszcza biorąc pod uwagę niskie zapotrzebowanie na zasoby w porównaniu do większych jednostek, takich jak 9-miliardowy GLM-4 Voice.

Krytyczne spojrzenie na naturalność

Mimo technicznej dominacji w sferze klonowania, badacze FlashLabs zachowują zdrowy dystans do subiektywnej oceny rezultatów. Choć Chroma wygrywa w testach podobieństwa głosu, w kategorii ogólnej naturalności brzmienia (CMOS) użytkownicy wciąż częściej wskazują na rozwiązania takie jak ElevenLabs. Interesującym wnioskiem z badań jest fakt, że ludzkie ucho często wyżej ocenia syntetyczną doskonałość niż autentyczne, niekiedy niedoskonałe nagrania źródłowe. Chroma 1.0 staje się jednak unikalną propozycją na rynku – jako jedyny tak kompaktowy model łączy zaawansowane rozumowanie z pełną, lokalną personalizacją głosu w czasie rzeczywistym.