Nvidia otwiera dostęp do ogromnego zbioru danych mowy i najnowocześniejszych modeli dla języków europejskich
Nvidia wkracza na nowy poziom w rozwoju wielojęzycznej sztucznej inteligencji mowy, udostępniając Granary, gigantyczny, otwarty zbiór danych dla języków europejskich. Wraz z nim debiutują dwa najnowocześniejsze modele: Canary-1b-v2 i Parakeet-tdt-0.6b-v3. Ta inicjatywa wyznacza nowe standardy w dziedzinie automatycznego rozpoznawania mowy (ASR) i tłumaczenia mowy (AST), otwierając drzwi do innowacji, zwłaszcza dla języków europejskich z ograniczoną ilością danych.
Granary: fundament dla wielojęzycznej AI mowy
Granary to monumentalny, wielojęzyczny korpus, stworzony we współpracy z Carnegie Mellon University i Fondazione Bruno Kessler. Oferuje blisko milion godzin nagrań audio, z czego 650 000 godzin jest przeznaczonych do rozpoznawania mowy, a 350 000 do tłumaczenia. Zbiór obejmuje 25 języków europejskich – reprezentujących niemal wszystkie języki urzędowe UE, a także rosyjski i ukraiński. Nvidia położyła szczególny nacisk na języki z ograniczoną ilością danych, takie jak chorwacki, estoński i maltański.
Co wyróżnia Granary?
- Największy otwarty zbiór danych mowy dla 25 języków europejskich.
- Technika pseudo-labeling: Nieoznakowane publiczne dane audio są przetwarzane za pomocą Nvidia NeMo’s Speech Data Processor, który dodaje strukturę i poprawia jakość, ograniczając potrzebę kosztownego ręcznego oznaczania.
- Wsparcie dla ASR i AST: Zaprojektowany zarówno do transkrypcji, jak i tłumaczenia.
- Otwarty dostęp: Dostępny dla globalnej społeczności programistów, umożliwiając elastyczne szkolenie modeli na dużą skalę.
Wykorzystanie czystych, wysokiej jakości danych w Granary znacząco przyspiesza konwergencję modeli. Badania pokazują, że programiści potrzebują o połowę mniej danych z Granary, aby osiągnąć docelową dokładność w porównaniu z konkurencyjnymi zestawami danych. To czyni go szczególnie cennym dla języków z ograniczonymi zasobami i szybkiego prototypowania.
Canary-1b-v2: Wielojęzyczne ASR i tłumaczenie (EN ↔ 24 języki)
Canary-1b-v2 to model typu Encoder-Decoder z miliardem parametrów, wyszkolony na Granary, zapewniający wysoką jakość transkrypcji i tłumaczenia między angielskim a 24 obsługiwanymi językami europejskimi.
Architektura Canary-1b-v2 została zaprojektowana z myślą o dokładności i wielozadaniowości:
- Obsługiwane języki: 25 języków europejskich, dwukrotnie więcej niż w poprzedniej wersji Canary.
- Najnowocześniejsza wydajność: Porównywalna dokładność do modeli trzykrotnie większych, ale do 10 razy szybsza inferencja.
- Wielozadaniowość: Działa dobrze zarówno w zadaniach ASR, jak i AST.
- Funkcje: Automatyczna interpunkcja, kapitalizacja, znaczniki czasu na poziomie słów i segmentów – nawet znaczniki czasu dla przetłumaczonych danych wyjściowych.
- Architektura: FastConformer Encoder z Transformer Decoder; ujednolicony słownik dla wszystkich języków za pośrednictwem tokenizera SentencePiece.
- Wytrzymałość: Utrzymuje wysoką wydajność w hałaśliwych warunkach i jest odporny na halucynacje wyjściowe.
Ewaluacja modelu Canary-1b-v2:
- ASR Word Error Rate (WER): 7,15% (zbiór danych AMI), 10,82% (LibriSpeech Clean).
- AST COMET Scores: 79,3 (X→angielski), 84,56 (angielski→X).
- Wdrożenie: Dostępny na licencji CC BY 4.0; zoptymalizowany pod kątem systemów akcelerowanych przez GPU Nvidia, umożliwiając szybkie szkolenie i wnioskowanie w skalowalnym środowisku produkcyjnym.
Parakeet-tdt-0.6b-v3: Wielojęzyczne ASR w czasie rzeczywistym
Parakeet-tdt-0.6b-v3 to wielojęzyczny model ASR o 600 milionach parametrów, przeznaczony do transkrypcji o wysokiej przepustowości lub dużej objętości we wszystkich 25 obsługiwanych językach. Charakteryzuje się:
- Automatycznym wykrywaniem języka: Transkrybuje dźwięk wejściowy bez dodatkowych podpowiedzi.
- Możliwością pracy w czasie rzeczywistym: Wydajnie transkrybuje segmenty audio o długości do 24 minut w jednym przebiegu wnioskowania.
- Szybkością, skalowalnością i gotowością do zastosowań komercyjnych: Priorytetem jest niskie opóźnienie, przetwarzanie wsadowe i dokładne wyniki, ze znacznikami czasu na poziomie słów, interpunkcją i kapitalizacją.
- Wytrzymałością: Niezawodny nawet w przypadku złożonych treści (liczby, teksty piosenek) i trudnych warunków audio.
Wpływ na rozwój AI mowy
Zbiór danych Granary i pakiet modeli Nvidia przyspieszają demokratyzację sztucznej inteligencji mowy dla Europy, umożliwiając skalowalny rozwój:
- Wielojęzycznych chatbotów
- Agentów głosowych obsługi klienta
- Usług tłumaczeń w czasie zbliżonym do rzeczywistego
Programiści, naukowcy i firmy mogą teraz tworzyć inkluzywne aplikacje wysokiej jakości, wspierające różnorodność językową, z otwartym dostępem do tych modeli i zbiorów danych. Nvidia stawia kolejny znaczący krok w kierunku bardziej dostępnej przyszłości opartej na AI.
