SpeechSSM: przełom w generowaniu mowy o długim czasie trwania
Wraz z rozwojem sztucznej inteligencji, modele językowe oparte na mowie (SLM) zyskują na znaczeniu, oferując możliwość uczenia się i generowania ludzkiej mowy bez konieczności przekształcania jej na tekst. Ta technologia przewyższa tradycyjne modele tekstowe, integrując zarówno informacje lingwistyczne, jak i nielingwistyczne, takie jak intonacja czy emocje.
Istniejące modele SLM borykały się jednak z poważnymi ograniczeniami w generowaniu treści o dłuższym czasie trwania, co stanowiło przeszkodę w zastosowaniach takich jak podcasty, audiobooki czy zaawansowani asystenci głosowi. Problem ten dotyczył utrzymania spójności semantycznej i zgodności z pierwotnym kontekstem mówcy przy dłuższych sekwencjach mowy.
Przełomowe rozwiązanie: SpeechSSM
Badaczka Sejin Park, pracująca w zespole profesora Yonga Mana Ro z Korea Advanced Institute of Science and Technology (KAIST), opracowała innowacyjne rozwiązanie o nazwie „SpeechSSM”. Ten nowy model skutecznie pokonuje dotychczasowe bariery, umożliwiając generowanie spójnej i naturalnej mowy bez ograniczeń czasowych. Praca Sejin Park została opublikowana na serwerze preprintów arXiv, a jej prezentacja planowana jest na prestiżowej konferencji ICML (International Conference on Machine Learning) w 2025 roku.
Technologiczne innowacje leżące u podstaw SpeechSSM
Kluczową zaletą SLM jest ich zdolność do bezpośredniego przetwarzania mowy, co pozwala na szybkie generowanie wysokiej jakości treści, nawet w przypadku dużych modeli. Wyzwaniem było jednak utrzymanie długotrwałej spójności. Problem wynikał z konieczności analizowania bardzo szczegółowych informacji, co prowadziło do wysokiej rozdzielczości tokenów mowy i znacznego zużycia pamięci, a w konsekwencji do gubienia spójności tematycznej.
SpeechSSM wprowadza hybrydową architekturę, która łączy „warstwy atencji” – skupiające się na bieżących informacjach – z „warstwami rekurencyjnymi”, które zachowują ogólny przepływ narracji i długoterminowy kontekst. Takie podejście pozwala na płynne utrzymanie spójności treści, nawet podczas generowania bardzo długich sekwencji mowy.
Co więcej, model ten charakteryzuje się stabilnym i efektywnym zużyciem zasobów. Zużycie pamięci i obciążenie obliczeniowe nie rosną drastycznie wraz z długością danych wejściowych, co umożliwia stabilne uczenie i generowanie mowy o znacznie dłuższym czasie trwania.
Skuteczność przetwarzania nieograniczonych sekwencji mowy Achieving SpeechSSM polega na dzieleniu danych mowy na krótkie, stałe jednostki (okna), przetwarzaniu każdej jednostki niezależnie, a następnie łączeniu ich w celu stworzenia długiej sekwencji.
Dodatkowo, w fazie generowania mowy, SpeechSSM wykorzystuje model syntezy dźwięku typu „Non-Autoregressive” (SoundStorm). Ten model pozwala na szybkie generowanie wielu fragmentów naraz, zamiast powolnego tworzenia pojedynczych znaków czy słów, co przyspiesza proces generowania wysokiej jakości mowy.
Nowe metryki oceny jakości mowy
Tradycyjnie, modele mowy były oceniane na podstawie krótkich próbek, zazwyczaj około 10-sekundowych. Sejin Park, wychodząc naprzeciw potrzebom oceny długotrwałej mowy, stworzyła nowy zestaw testów opartych na samodzielnie zbudowanym zbiorze danych „LibriSpeech-Long”, zdolnym do generowania mowy o długości do 16 minut.
Co istotne, zaproponowała nowe metryki oceny, które wykraczają poza tradycyjną metrykę PPL (Perplexity), mierzącą jedynie poprawność gramatyczną. Wprowadziła „SC-L (semantic coherence over time)” do oceny spójności treści w czasie oraz „N-MOS-T (naturalness mean opinion score over time)” do oceny naturalności w czasie. Dzięki tym nowym wskaźnikom możliwe jest dokładniejsze i bardziej efektywne ocenianie jakości generowanej mowy.
Przeprowadzone testy potwierdziły, że mowa generowana przez SpeechSSM konsekwentnie utrzymuje kontekst i postacie wspomniane w początkowym monicie. Nowe postacie i wydarzenia rozwijają się naturalnie i spójnie, nawet przy długotrwałym generowaniu. To stanowi wyraźny kontrast w stosunku do istniejących modeli, które często gubiły temat i wykazywały tendencję do powtarzania się po dłuższym czasie generowania.
Sejin Park podkreśliła, że celem jej zespołu było stworzenie modelu zdolnego do generowania długotrwałej mowy, która będzie faktycznie użyteczna w praktycznych zastosowaniach. Jest to istotny krok w rozwoju treści głosowych, w tym asystentów głosowych, umożliwiający utrzymanie spójności treści w dłuższych kontekstach i zapewniający szybszą, bardziej efektywną reakcję w czasie rzeczywistym.
Badania nad SpeechSSM były prowadzone we współpracy z Google DeepMind, co dodatkowo potwierdza ich znaczenie i potencjał.
