Abstrakcyjna wizualizacja fal dźwiękowych i tekstu jako połączeń neuronowych w barwach NVIDIA.

NVIDIA redefiniuje rozpoznawanie mowy systemem Canary-Qwen-2.5B, łącząc ASR z LLM

2025-07-19 AI Sight

NVIDIA zaprezentowała Canary-Qwen-2.5B, model, który wyznacza nowy standard w dziedzinie automatycznego rozpoznawania mowy (ASR) oraz przetwarzania języka naturalnego (LLM). Ten hybrydowy system zajął pierwsze miejsce na liście rankingowej Hugging Face OpenASR, osiągając imponujący wynik Word Error Rate (WER) na poziomie zaledwie 5.63%. Jest to znaczący krok naprzód, nie tylko ze względu na osiągnięcia techniczne, ale także na otwartą licencję CC-BY, która zezwala na komercyjne wykorzystanie, eliminując bariery we wdrażaniu sztucznej inteligencji głosowej w przedsiębiorstwach.

Innowacyjna architektura hybrydowa

Kluczową innowacją Canary-Qwen-2.5B jest jego unikalna architektura, która integruje proces transkrypcji i rozumienia języka. W przeciwieństwie do tradycyjnych rozwiązań ASR, gdzie te etapy są rozdzielone, nowy model NVIDII łączy je dzięki wykorzystaniu dwóch komponentów. Pierwszym jest FastConformer, szybki koder mowy zoptymalizowany pod kątem niskiego opóźnienia i wysokiej dokładności transkrypcji. Drugim elementem jest niezmieniony, wstępnie wytrenowany dekoder LLM Qwen3-1.7B, który odbiera tokeny transkrybowane z audio za pośrednictwem adapterów.

Zastosowanie adapterów zapewnia modularność, co umożliwia odłączenie kodera Canary i użycie Qwen3-1.7B jako samodzielnego modelu LLM do zadań tekstowych. Ta elastyczność sprawia, że pojedyncze wdrożenie może obsługiwać zarówno dane wejściowe głosowe, jak i tekstowe, co otwiera nowe możliwości w zastosowaniach multimodalnych.

Wydajność w liczbach

Wynik WER na poziomie 5.63% dla Canary-Qwen-2.5B jest rekordowy, zwłaszcza biorąc pod uwagę jego skromny rozmiar 2.5 miliarda parametrów. Wiele większych modeli nie osiąga tak dobrych rezultatów. Model wyróżnia się także wysokim współczynnikiem RTFx (Real-Time Factor) wynoszącym 418, co oznacza, że może przetwarzać dźwięk 418 razy szybciej niż w czasie rzeczywistym. Ta cecha jest kluczowa dla zastosowań wymagających niskiego opóźnienia, takich jak transkrypcja na dużą skalę czy systemy automatycznych napisów na żywo.

Szkolenie i zbiór danych

Canary-Qwen-2.5B został wytrenowany na ogromnym zbiorze danych obejmującym 234 000 godzin angielskiej mowy. Ten kompleksowy dataset, znacznie przewyższający skalę poprzednich modeli NeMo, zawiera zróżnicowane akcenty, domeny i style mówienia, co zapewnia wyjątkową generalizację modelu nawet w warunkach szumu, w konwersacjach oraz w specyficznych domenach audio. Proces szkolenia odbywał się w ramach frameworku NVIDIA NeMo, a otwarte „przepisy” są dostępne dla społeczności, co umożliwia dalsze modyfikacje i eksperymenty.

Kompatybilność sprzętowa i zastosowania

Model Canary-Qwen-2.5B jest zoptymalizowany pod kątem szerokiej gamy procesorów graficznych NVIDII, od kart do centrów danych (A100, H100) po stacje robocze (RTX PRO 6000) i karty konsumenckie (GeForce RTX 5090 i niższe). Taka skalowalność pozwala na jego wdrożenie zarówno w chmurze, jak i na urządzeniach brzegowych.

Dzięki licencji CC-BY, model może być wykorzystywany w szerokim spektrum zastosowań komercyjnych, takich jak usługi transkrypcji, ekstrakcja wiedzy z audio, podsumowywanie spotkań w czasie rzeczywistym, tworzenie inteligentnych agentów głosowych czy dokumentacja zgodna z regulacjami (np. w opiece zdrowotnej czy sektorze prawnym). Zintegrowane dekodowanie LLM poprawia interpunkcję, kapitalizację i dokładność kontekstową, co jest niezwykle cenne w branżach, gdzie błędna interpretacja może mieć poważne konsekwencje.

Wizja przyszłości AI głosowej

Otwarcie kodu źródłowego i „przepisów” treningowych ma na celu katalizowanie innowacji w dziedzinie AI głosowej. Deweloperzy mogą łączyć różne kodery i dekodery LLM kompatybilne z NeMo, tworząc hybrydowe systemy dostosowane do specyficznych domen czy języków. Premiera Canary-Qwen-2.5B ustanawia nowy paradygmat dla ASR opartego na LLM, gdzie modele językowe nie są jedynie narzędziami post-processingowymi, lecz integralnymi częściami potoku zamiany mowy na tekst. Ta perspektywa wpisuje się w szerszy trend modeli agentowych, zdolnych do kompleksowego rozumienia i podejmowania decyzji na podstawie multimodalnych danych wejściowych.

Canary-Qwen-2.5B to więcej niż tylko model ASR. To plan integracji rozumienia mowy z wszechstronnymi modelami językowymi. Jego wysoka wydajność, możliwość komercyjnego wykorzystania i otwartość na innowacje pozycjonują go jako fundamentalne narzędzie dla przedsiębiorstw, twórców i badaczy, dążących do odblokowania kolejnej generacji aplikacji AI zorientowanych na głos.

Innowacyjna architektura hybrydowa

Wydajność w liczbach

Szkolenie i zbiór danych

Kompatybilność sprzętowa i zastosowania

Wizja przyszłości AI głosowej

Udostępnij:

Zobacz również

Mistral AI podnosi poprzeczkę: OCR 3 z precyzją odczytuje trudne dokumenty i manuskrypty

Przełom w rozumowaniu modeli językowych: Trening w czasie testu sześciokrotnie zwiększa dokładność LLM-ów

Sztuczna inteligencja uczy się rozpoznawać Twojego psa: Nowa metoda lokalizacji spersonalizowanych obiektów

Dodaj komentarz Anuluj pisanie odpowiedzi