Cohere Transcribe rzuca wyzwanie gigantom. Nowy model open-source dominuje w rankingach ASR
Przełom w wydajności: szybciej i trafniej niż Whisper
Rynek systemów automatycznego rozpoznawania mowy (ASR) zyskał właśnie nowego lidera. Kanadyjska firma Cohere udostępniła model Transcribe, który niemal natychmiast po premierze zajął pierwsze miejsce w prestiżowym rankingu Hugging Face Open ASR Leaderboard. Osiągnięcie to jest tym bardziej znaczące, że model o parametrach rzędu 2 miliardów pokonał znacznie głośniejszych konkurentów, w tym Whisper Large v3 od OpenAI czy Scribe v2 autorstwa ElevenLabs.
Kluczem do sukcesu Transcribe okazał się balans między dokładnością a czystą mocą obliczeniową. Średni współczynnik błędów (Word Error Rate – WER) na poziomie 5,42% stawia go na szczycie zestawienia dokładności. Jednak to metryka RTFx, określająca szybkość przetwarzania dźwięku w stosunku do czasu rzeczywistego, pokazuje technologiczną przewagę Cohere. Z wynikiem 525 jednostek model ten deklasuje rywali, takich jak NVIDIA Canary czy Voxtral Realtime, oferując najkrótszy czas oczekiwania na tekst przy zachowaniu najwyższej wierności zapisu.
Szeroka dostępność i integracja z ekosystemem
Mimo imponujących parametrów Cohere zdecydowało się na otwartą formułę dystrybucji. Transcribe jest dostępny na licencji Apache 2.0, co pozwala programistom i firmom na swobodne pobieranie go z platformy Hugging Face. Model wspiera obecnie 14 języków, w tym kluczowe rynki, takie jak angielski, francuski, niemiecki czy japoński. Dla podmiotów szukających gotowych rozwiązań infrastrukturalnych firma udostępniła narzędzie poprzez własne API oraz platformę Model Vault.
Deweloperzy z Toronto nie traktują jednak Transcribe wyłącznie jako samodzielnego produktu. Nowy silnik ASR ma stać się fundamentem dla North – autorskiej platformy agentów AI. Integracja ta sugeruje, że Cohere dąży do stworzenia kompleksowego ekosystemu, w którym interakcja głosowa z maszyną będzie odbywać się bez opóźnień typowych dla obecnej generacji asystentów. Choć konkurencja w segmencie mowy jest ogromna, publikacja tak wydajnego modelu na zasadach open-source może wymusić na innych graczach rewizję ich strategii dostępu do technologii.
