Abstrakcyjna wizualizacja rozpoznawania mowy: sieci fal dźwiękowych przekształcające się w tekst. Precyzja kontra szybkość.

Precyzja kontra szybkość: Nowy ranking demaskuje mocne i słabe strony modeli rozpoznawania mowy

2025-10-13 AI Sight

Kto najlepiej zamienia mowę na tekst? Nowy ranking daje odpowiedź

Na rynku zdominowanym przez marketingowe obietnice i zamknięte ekosystemy, obiektywna ocena modeli sztucznej inteligencji jest na wagę złota. Lukę tę w dziedzinie automatycznego rozpoznawania mowy (ASR) ma wypełnić Open ASR Leaderboard – wspólna inicjatywa naukowców z Hugging Face, Nvidia, Uniwersytetu Cambridge i Mistral AI. Stworzyli oni otwartą platformę ewaluacyjną, która w transparentny sposób porównuje wydajność ponad 60 dostępnych na rynku modeli, zarówno open-source, jak i komercyjnych.

Celem projektu jest dostarczenie deweloperom i firmom rzetelnych danych, które pomogą im wybrać odpowiednie narzędzie. Aby porównanie było sprawiedliwe, wszystkie transkrypcje są poddawane normalizacji – usuwane są znaki interpunkcyjne i wielkie litery, liczby zamieniane są na słowa, a dźwięki namysłu, takie jak „yyy” czy „hmm”, są pomijane. To standard spójny z tym, jak swoje wyniki normalizuje model Whisper od OpenAI.

Dwie metryki prawdy: Dokładność i szybkość

Wydajność systemów ASR oceniana jest na podstawie dwóch kluczowych wskaźników. Pierwszy to współczynnik błędu słów (Word Error Rate, WER), który mierzy, jak wiele słów w transkrypcji zostało rozpoznanych nieprawidłowo – im niższa wartość, tym model jest dokładniejszy. Drugi to odwrotny współczynnik czasu rzeczywistego (RTFx), określający prędkość przetwarzania. Przykładowo, RTFx na poziomie 100 oznacza, że minuta nagrania audio jest transkrybowana w zaledwie 0,6 sekundy.

Analiza wyników dla języka angielskiego nie pozostawia złudzeń: precyzja ma swoją cenę. Najdokładniejsze modele, często bazujące na architekturze dużych modeli językowych (LLM), osiągają imponujące rezultaty, ale działają znacznie wolniej. Liderem dokładności jest Canary Qwen 2.5B od Nvidii z wynikiem WER na poziomie 5,63%, jednak jego prędkość jest niska. Dla kontrastu, prostsze systemy, takie jak Parakeet CTC 1.1B (również od Nvidii), przetwarzają dźwięk 2728 razy szybciej niż w czasie rzeczywistym, ale pod względem dokładności plasują się dopiero na 23. miejscu.

Uniwersalność kosztem specjalizacji

Testy wielojęzyczne (obejmujące niemiecki, francuski, włoski, hiszpański i portugalski) ujawniły kolejną ważną zależność. Modele wąsko wyspecjalizowane w jednym języku niemal zawsze pokonują w nim swoje uniwersalne, wielojęzyczne odpowiedniki. Przykładowo, wersje modelu Whisper trenowane wyłącznie na danych anglojęzycznych radzą sobie z tym językiem lepiej niż flagowy, wielojęzyczny Whisper Large v3. Z kolei w języku niemieckim i włoskim najlepsze wyniki osiąga multimodalny model Phi-4 od Microsoftu.

Ten kompromis pokazuje, że firmy muszą precyzyjnie określić swoje potrzeby. Jeśli system ma obsługiwać wyłącznie jeden rynek, bardziej opłacalny może być wybór wyspecjalizowanego modelu. Jeśli jednak kluczowa jest elastyczność, trzeba pogodzić się z niższą precyzją w poszczególnych językach.

Open source kontra komercja: Zaskakujący podział ról

Ranking rzuca również nowe światło na rywalizację między modelami open-source a płatnymi usługami. W przypadku krótkich nagrań audio czołowe miejsca zajmują projekty o otwartym kodzie źródłowym. Najwyżej notowany system komercyjny, Aqua Voice Avalon, jest dopiero szósty. Należy jednak zaznaczyć, że porównywanie prędkości usług komercyjnych jest obarczone błędem – czynniki takie jak czas przesyłania plików mogą zaburzać wyniki.

Sytuacja odwraca się diametralnie przy analizie długich nagrań, trwających ponad 30 sekund. Tutaj dominują dostawcy komercyjni. Modele takie jak Scribe v1 od Elevenlabs (WER 4,33%) i Fusion od RevAI (WER 5,04%) zajmują czołowe pozycje. Prawdopodobnie jest to efekt celowej optymalizacji pod kątem długich treści, takich jak wywiady czy podcasty, oraz wykorzystania potężniejszej infrastruktury serwerowej.

Całe zestawienie oraz kod źródłowy platformy są dostępne publicznie na GitHubie, co pozwala każdemu na weryfikację wyników lub zgłoszenie własnego modelu do testów. Twórcy zapowiadają dalszy rozwój projektu, w tym dodanie kolejnych języków i metryk oceny.

Kto najlepiej zamienia mowę na tekst? Nowy ranking daje odpowiedź

Dwie metryki prawdy: Dokładność i szybkość

Uniwersalność kosztem specjalizacji

Open source kontra komercja: Zaskakujący podział ról

Udostępnij:

Zobacz również

Koniec z ręcznym notowaniem. HypeScribe stawia na inteligentną syntezę audio dzięki GPT-5.2

ElevenLabs podpisuje umowy z gwiazdami na generowanie głosów AI

Huxe: Twórcy NotebookLM stawiają na audio w nowej aplikacji do newsów i researchu

Dodaj komentarz Anuluj pisanie odpowiedzi