NarzędziaTechnologia

Nvidia otwiera dostęp do AI w 25 językach Europy. Koniec z angielskim monopolem?

Sztuczna inteligencja, choć wszechobecna, wciąż w dużej mierze funkcjonuje w ograniczonym spektrum języków. Nvidia podejmuje wyzwanie, by to zmienić, szczególnie w Europie, udostępniając nowe modele i narzędzia deweloperom. Celem jest przełamanie bariery językowej i umożliwienie tworzenia zaawansowanych rozwiązań AI w językach, które do tej pory były niedoreprezentowane.

Firma zaprezentowała zestaw narzędzi open-source, który ma dać deweloperom możliwość tworzenia wysokiej jakości systemów rozpoznawania mowy dla 25 języków europejskich. Oprócz tych popularnych, takich jak niemiecki czy francuski, wsparcie uzyskają języki często pomijane przez gigantów technologicznych – chorwacki, estoński czy maltański.

Granary – skarbnica mowy dla AI

Kluczowym elementem inicjatywy jest Granary, olbrzymia biblioteka danych mowy, zawierająca około miliona godzin nagrań audio. Została ona starannie opracowana, aby uczyć AI rozpoznawania niuansów językowych i tłumaczeń. Nvidia udostępnia również dwa nowe modele AI, które mają ułatwić pracę z językiem: Canary-1b-v2, model o wysokiej dokładności, przeznaczony do skomplikowanych zadań transkrypcji i tłumaczeń, oraz Parakeet-tdt-0.6b-v3, stworzony z myślą o aplikacjach działających w czasie rzeczywistym, dla których szybkość ma kluczowe znaczenie.

Dane i modele są już dostępne na platformie Hugging Face. Naukowcy przedstawią szczegóły dotyczące Granary na konferencji Interspeech w Holandii.

Automatyzacja – klucz do sukcesu

Tworzenie AI wymaga ogromnych ilości danych, a ich pozyskiwanie jest zwykle procesem powolnym, kosztownym i żmudnym, wymagającym ręcznego oznaczania. Zespół Nvidia Speech AI, we współpracy z naukowcami z Carnegie Mellon University i Fondazione Bruno Kessler, opracował zautomatyzowany potok przetwarzania danych. Wykorzystując narzędzie NeMo, byli w stanie przekształcić surowe, nieoznakowane nagrania audio w wysokiej jakości, ustrukturyzowane dane, które mogą być wykorzystywane do uczenia AI.

Badacze odkryli, że dane zawarte w Granary są tak efektywne, że potrzeba ich o połowę mniej, aby osiągnąć docelowy poziom dokładności w porównaniu z innymi popularnymi zbiorami danych. Canary oferuje jakość tłumaczeń i transkrypcji porównywalną z modelami trzykrotnie większymi, ale przy dziesięciokrotnie większej szybkości. Parakeet jest w stanie przetworzyć 24-minutowe nagranie spotkania w całości, automatycznie rozpoznając język, w którym się ono odbywa. Oba modele rozpoznają interpunkcję, wielkie litery i generują znaczniki czasowe dla poszczególnych słów, co jest niezbędne do budowania profesjonalnych aplikacji.

Nvidia nie tylko udostępnia nowe produkty, ale także stymuluje innowacje, mając nadzieję na stworzenie świata, w którym AI mówi Twoim językiem, niezależnie od Twojego pochodzenia.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *