Abstrakcyjna wizualizacja danych mowy jako splecionych sieci światła, kolorów reprezentujących języki europejskie, z centralnym, świetlistym rdzeniem.

Nvidia otwiera dostęp do ogromnego zbioru danych mowy i najnowocześniejszych modeli dla języków europejskich

2025-08-17 AI Sight

Nvidia wkracza na nowy poziom w rozwoju wielojęzycznej sztucznej inteligencji mowy, udostępniając Granary, gigantyczny, otwarty zbiór danych dla języków europejskich. Wraz z nim debiutują dwa najnowocześniejsze modele: Canary-1b-v2 i Parakeet-tdt-0.6b-v3. Ta inicjatywa wyznacza nowe standardy w dziedzinie automatycznego rozpoznawania mowy (ASR) i tłumaczenia mowy (AST), otwierając drzwi do innowacji, zwłaszcza dla języków europejskich z ograniczoną ilością danych.

Granary: fundament dla wielojęzycznej AI mowy

Granary to monumentalny, wielojęzyczny korpus, stworzony we współpracy z Carnegie Mellon University i Fondazione Bruno Kessler. Oferuje blisko milion godzin nagrań audio, z czego 650 000 godzin jest przeznaczonych do rozpoznawania mowy, a 350 000 do tłumaczenia. Zbiór obejmuje 25 języków europejskich – reprezentujących niemal wszystkie języki urzędowe UE, a także rosyjski i ukraiński. Nvidia położyła szczególny nacisk na języki z ograniczoną ilością danych, takie jak chorwacki, estoński i maltański.

Co wyróżnia Granary?

Największy otwarty zbiór danych mowy dla 25 języków europejskich.
Technika pseudo-labeling: Nieoznakowane publiczne dane audio są przetwarzane za pomocą Nvidia NeMo’s Speech Data Processor, który dodaje strukturę i poprawia jakość, ograniczając potrzebę kosztownego ręcznego oznaczania.
Wsparcie dla ASR i AST: Zaprojektowany zarówno do transkrypcji, jak i tłumaczenia.
Otwarty dostęp: Dostępny dla globalnej społeczności programistów, umożliwiając elastyczne szkolenie modeli na dużą skalę.

Wykorzystanie czystych, wysokiej jakości danych w Granary znacząco przyspiesza konwergencję modeli. Badania pokazują, że programiści potrzebują o połowę mniej danych z Granary, aby osiągnąć docelową dokładność w porównaniu z konkurencyjnymi zestawami danych. To czyni go szczególnie cennym dla języków z ograniczonymi zasobami i szybkiego prototypowania.

Canary-1b-v2: Wielojęzyczne ASR i tłumaczenie (EN ↔ 24 języki)

Canary-1b-v2 to model typu Encoder-Decoder z miliardem parametrów, wyszkolony na Granary, zapewniający wysoką jakość transkrypcji i tłumaczenia między angielskim a 24 obsługiwanymi językami europejskimi.

Architektura Canary-1b-v2 została zaprojektowana z myślą o dokładności i wielozadaniowości:

Obsługiwane języki: 25 języków europejskich, dwukrotnie więcej niż w poprzedniej wersji Canary.
Najnowocześniejsza wydajność: Porównywalna dokładność do modeli trzykrotnie większych, ale do 10 razy szybsza inferencja.
Wielozadaniowość: Działa dobrze zarówno w zadaniach ASR, jak i AST.
Funkcje: Automatyczna interpunkcja, kapitalizacja, znaczniki czasu na poziomie słów i segmentów – nawet znaczniki czasu dla przetłumaczonych danych wyjściowych.
Architektura: FastConformer Encoder z Transformer Decoder; ujednolicony słownik dla wszystkich języków za pośrednictwem tokenizera SentencePiece.
Wytrzymałość: Utrzymuje wysoką wydajność w hałaśliwych warunkach i jest odporny na halucynacje wyjściowe.

Ewaluacja modelu Canary-1b-v2:

ASR Word Error Rate (WER): 7,15% (zbiór danych AMI), 10,82% (LibriSpeech Clean).
AST COMET Scores: 79,3 (X→angielski), 84,56 (angielski→X).
Wdrożenie: Dostępny na licencji CC BY 4.0; zoptymalizowany pod kątem systemów akcelerowanych przez GPU Nvidia, umożliwiając szybkie szkolenie i wnioskowanie w skalowalnym środowisku produkcyjnym.

Parakeet-tdt-0.6b-v3: Wielojęzyczne ASR w czasie rzeczywistym

Parakeet-tdt-0.6b-v3 to wielojęzyczny model ASR o 600 milionach parametrów, przeznaczony do transkrypcji o wysokiej przepustowości lub dużej objętości we wszystkich 25 obsługiwanych językach. Charakteryzuje się:

Automatycznym wykrywaniem języka: Transkrybuje dźwięk wejściowy bez dodatkowych podpowiedzi.
Możliwością pracy w czasie rzeczywistym: Wydajnie transkrybuje segmenty audio o długości do 24 minut w jednym przebiegu wnioskowania.
Szybkością, skalowalnością i gotowością do zastosowań komercyjnych: Priorytetem jest niskie opóźnienie, przetwarzanie wsadowe i dokładne wyniki, ze znacznikami czasu na poziomie słów, interpunkcją i kapitalizacją.
Wytrzymałością: Niezawodny nawet w przypadku złożonych treści (liczby, teksty piosenek) i trudnych warunków audio.

Wpływ na rozwój AI mowy

Zbiór danych Granary i pakiet modeli Nvidia przyspieszają demokratyzację sztucznej inteligencji mowy dla Europy, umożliwiając skalowalny rozwój:

Wielojęzycznych chatbotów
Agentów głosowych obsługi klienta
Usług tłumaczeń w czasie zbliżonym do rzeczywistego

Programiści, naukowcy i firmy mogą teraz tworzyć inkluzywne aplikacje wysokiej jakości, wspierające różnorodność językową, z otwartym dostępem do tych modeli i zbiorów danych. Nvidia stawia kolejny znaczący krok w kierunku bardziej dostępnej przyszłości opartej na AI.

Granary: fundament dla wielojęzycznej AI mowy

Canary-1b-v2: Wielojęzyczne ASR i tłumaczenie (EN ↔ 24 języki)

Parakeet-tdt-0.6b-v3: Wielojęzyczne ASR w czasie rzeczywistym

Wpływ na rozwój AI mowy

Udostępnij:

Zobacz również

Huxe: Twórcy NotebookLM stawiają na audio w nowej aplikacji do newsów i researchu

Hume AI prezentuje Octave 2: Nowa generacja syntezy mowy AI

Google zmienia mechanikę wyszukiwania głosowego: ze tekstu prosto do wyszukiwania semantycznego

Dodaj komentarz Anuluj pisanie odpowiedzi