Audio

Nowe spojrzenie na poprawę jakości mowy: elastyczne wzmocnienie dźwięku z wykorzystaniem pre-trenowanych modeli generatywnych

Branża sztucznej inteligencji, w szczególności w dziedzinie przetwarzania mowy, odchodzi od dominujących do tej pory metod bazujących na predykcji masek lub sygnałów. Zamiast tego, coraz większą uwagę poświęca się wstępnie trenowanym modelom audio. Takie rozwiązania, jak choćby WavLM, pozwalają na ekstrakcję bogatszych, bardziej transferowalnych informacji dźwiękowych, co przekłada się na znaczącą poprawę wydajności systemów wzmacniania mowy.

Przedsiębiorstwa, takie jak MiLM Plus i Xiaomi Inc., aktywnie eksplorują nowe horyzonty. Ich najnowsze osiągnięcia wskazują na możliwość stworzenia lekkiej i elastycznej metody wzmacniania mowy, opartej na trzech kluczowych komponentach. Proces zaczyna się od ekstrakcji zaszumionych osadzeń audio przy użyciu zamrożonego audioencodera. Następnie te zaszumione osadzenia są oczyszczane przez niewielki encoder odszumiający, a na końcu przekazywane do wokodera, który generuje czystą mowę. Co istotne, zarówno audioencoder, jak i wokoder są trenowane osobno i niezależnie od konkretnego zadania, co otwiera drogę do ich adaptacji w szerokim zakresie zastosowań, od usuwania pogłosu po separację ścieżek dźwiękowych.

W kierunku generatywności: zalety nowych architektu

Przeprowadzone eksperymenty dostarczają przekonujących dowodów na to, że modele generatywne istotnie przewyższają modele dyskryminacyjne pod względem jakości mowy i wierności głosów mówców. System, pomimo swojej względnej prostoty, cechuje się wysoką efektywnością, co potwierdzają testy odsłuchowe, w których przewyższa nawet wiodące modele wzmacniania mowy.

Kluczowym elementem architektury jest to, że podczas treningu encoder odszumiający minimalizuje różnicę między zaszumionymi a czystymi osadzeniami, generowanymi równolegle z pary próbek mowy. Używana jest przy tym metryka błędu średniokwadratowego (MSE). Sam encoder oparty jest na architekturze ViT (Vision Transformer) z wykorzystaniem standardowych warstw aktywacyjnych i normalizacyjnych. Wokoder natomiast jest trenowany w sposób samoobsługowy, wyłącznie na danych czystej mowy, ucząc się rekonstrukcji przebiegów mowy z osadzeń audio poprzez przewidywanie współczynników widmowych Fouriera.

Co ważne, audioencoder pozostaje niezmieniony, wykorzystując wagi z publicznie dostępnych modeli. To znacznie upraszcza proces i redukuje koszty obliczeniowe związane z ponownym trenowaniem.

Wyniki, które mówią same za siebie

Ewaluacja systemu wykazała, że generatywne audioencodery, takie jak Dasheng, konsekwentnie przewyższają ich dyskryminacyjne odpowiedniki. W teście DNS1 Dasheng osiągnął wynik podobieństwa mówcy na poziomie 0.881, podczas gdy WavLM i Whisper uzyskały odpowiednio 0.486 i 0.489. Pod względem jakości mowy, wskaźniki takie jak DNSMOS i NISQAv2 odnotowały znaczną poprawę, nawet przy mniejszych encoderach odszumiających. Przykładowo, ViT3 osiągnął DNSMOS na poziomie 4.03 i NISQAv2 na poziomie 4.41.

Subiektywne testy odsłuchowe z udziałem 17 uczestników jasno wykazały, że Dasheng uzyskał średni wynik oceny (MOS) wynoszący 3.87, przewyższając Demucs (3.11) i LMS (2.98). Potwierdza to jego doskonałą wydajność percepcyjną.

W rezultacie, nowo zaprezentowany system wzmacniania mowy jest praktycznym i elastycznym rozwiązaniem, które unika konieczności pełnego dostrajania modeli. Dzięki odszumianiu osadzeń audio za pomocą lekkiego encodera i rekonstrukcji mowy za pomocą wstępnie trenowanego wokodera, system osiąga zarówno znaczną efektywność obliczeniową, jak i imponujące wyniki. Wydaje się, że jesteśmy świadkami kolejnego kroku w ewolucji technologii AI, który może znacząco wpłynąć na jakość komunikacji głosowej w najbliższych latach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *