Audio

NVIDIA prezentuje Nemotron Speech ASR – przełom w transkrypcji mowy o niskim opóźnieniu

NVIDIA po raz kolejny wyznacza nowe kierunki w dziedzinie sztucznej inteligencji, prezentując Nemotron Speech ASR (Automatic Speech Recognition). Jest to innowacyjny model transkrypcji mowy, stworzony od podstaw z myślą o zastosowaniach wymagających ultraniskich opóźnień, takich jak agenci głosowi czy transkrypcja na żywo. Model, dostępny pod nazwą nvidia/nemotron-speech-streaming-en-0.6b na platformie Hugging Face, stanowi krok naprzód w technologii rozpoznawania mowy.

Innowacyjna architektura i wydajność

Nemotron Speech ASR to model o 600 milionach parametrów, którego sercem jest enkoder FastConformer z 24 warstwami, wzbogacony o mechanizm „cache-aware”, w połączeniu z dekoderem RNNT. Kluczowym elementem konstrukcyjnym jest agresywne 8-krotne próbkowanie konwolucyjne w enkoderze, co skutecznie redukuje liczbę kroków czasowych, przekładając się na niższe zapotrzebowanie na moc obliczeniową i pamięć, szczególnie w obciążeniach streamingowych. Model przetwarza mono dźwięk o częstotliwości 16 kHz, wymagając co najmniej 80 ms audio na fragment. Latencja jest konfigurowalna, z czterema standardowymi trybami chunków, odpowiadającymi około 80 ms, 160 ms, 560 ms i 1,12 s audio, co pozwala programistom dostosować balans między dokładnością a opóźnieniem w czasie rzeczywistym.

Inteligentne strumieniowanie, nie buforowanie

Tradycyjne systemy ASR często bazują na zachodzących na siebie oknach, gdzie każda nowa sekwencja audio częściowo przetwarza dane z poprzedniego segmentu, aby utrzymać kontekst. To podejście generuje zbędne obliczenia i powoduje wzrost opóźnień wraz ze wzrostem równoczesnych zapytań. Nemotron Speech ASR rewolucjonizuje ten proces, przechowując w pamięci podręcznej stany enkodera dla wszystkich warstw uwagę własnej i konwolucyjnych. Każdy nowy fragment audio jest przetwarzany tylko raz, a model wykorzystuje buforowane aktywacje zamiast ponownie obliczać kontekst. Takie rozwiązanie gwarantuje niezachodzące na siebie przetwarzanie ramek, skalowanie pracy liniowo wraz z długością audio, przewidywalny wzrost pamięci oraz stabilną latencję pod obciążeniem – cechy krytyczne dla interaktywnych agentów głosowych.

Równowaga między dokładnością a opóźnieniem

Nemotron Speech ASR został poddany rygorystycznym testom na danych z OpenASR leaderboard Hugging Face, w tym AMI, Earnings22, Gigaspeech i LibriSpeech. Dokładność modelu, mierzona jako wskaźnik błędu słów (WER), prezentuje się następująco:

  • WER około 7,84% przy 0,16 s rozmiaru chunka
  • WER około 7,22% przy 0,56 s rozmiaru chunka
  • WER około 7,16% przy 1,12 s rozmiaru chunka

Te wyniki jasno pokazują kompromis między opóźnieniem a dokładnością. Większe fragmenty audio dostarczają więcej kontekstu fonetycznego, co minimalnie obniża WER, jednak nawet tryb 0,16 s utrzymuje WER poniżej 8%, zachowując użyteczność dla agentów czasu rzeczywistego. Programiści mają swobodę wyboru optymalnego punktu pracy w zależności od potrzeb aplikacji, co pozwala na elastyczne dostosowanie wydajności.

Przepustowość i skalowalność na nowoczesnych GPU

Kluczową zaletą architektury „cache-aware” jest jej wpływ na zwiększenie przepustowości i liczbę równoczesnych strumieni. Na karcie NVIDIA H100, Nemotron Speech ASR obsługuje około 560 równoczesnych strumieni przy 320 ms fragmentach, co stanowi około trzykrotny wzrost w porównaniu do standardowych systemów streamingowych przy podobnym opóźnieniu. Podobne wzrosty zaobserwowano na RTX A5000 (ponad 5-krotne) i DGX B200 (do 2-krotne), co podkreśla skalowalność rozwiązania. Co równie istotne, opóźnienie pozostaje stabilne nawet przy wzroście obciążenia. Testy przeprowadzone przez Modal z 127 równoczesnymi klientami WebSocket w trybie 560 ms wykazały medianę opóźnienia end-to-end na poziomie około 182 ms, bez znaczących odchyleń, co jest kluczowe dla agentów wymagających synchronizacji z mową w długotrwałych sesjach.

Szkolenie i integracja z ekosystemem

Nemotron Speech ASR został wytrenowany głównie na anglojęzycznej części zestawu danych Granary firmy NVIDIA, uzupełnionej o szeroką mieszankę publicznie dostępnych korpusów mowy, co daje łącznie około 285 tysięcy godzin audio. Wśród wykorzystanych zbiorów danych znajdują się między innymi YouTube Commons, YODAS2, Mosel, LibriLight, Fisher, Switchboard, WSJ, VCTK, VoxPopuli oraz wiele wydań Mozilla Common Voice. Etykiety do treningu pochodziły zarówno z transkrypcji ludzkich, jak i generowanych przez ASR.

Nemotron Speech ASR – przyszłość interakcji głosowych

Wydanie Nemotron Speech ASR w ramach licencji NVIDIA Permissive Open Model License, z otwartymi wagami i szczegółami treningu, pozwala zespołom na samodzielne hostowanie, dostrajanie i profilowanie pełnego stosu dla agentów głosowych o niskim opóźnieniu i innych aplikacji mowy. W połączeniu z Nemotron 3 Nano 30B i Magpie TTS, Nemotron Speech ASR osiąga medianę czasu do ostatecznej transkrypcji około 24 ms i serwerowe opóźnienie głos-do-głosu na poziomie około 500 ms (na RTX 5090), co czyni ASR małym ułamkiem całkowitego budżetu opóźnienia. To solidny fundament dla przyszłości interakcji głosowych, zapewniający szybkość i precyzję niezbędną w najbardziej wymagających aplikacjach.