Abstrakcyjne fale dźwiękowe przechodzą w tekst na tle pastelowej sieci, symbolizując open-source w ASR.

Cohere Transcribe rzuca wyzwanie gigantom. Nowy model open-source dominuje w rankingach ASR

2026-03-27 AI Sight

Przełom w wydajności: szybciej i trafniej niż Whisper

Rynek systemów automatycznego rozpoznawania mowy (ASR) zyskał właśnie nowego lidera. Kanadyjska firma Cohere udostępniła model Transcribe, który niemal natychmiast po premierze zajął pierwsze miejsce w prestiżowym rankingu Hugging Face Open ASR Leaderboard. Osiągnięcie to jest tym bardziej znaczące, że model o parametrach rzędu 2 miliardów pokonał znacznie głośniejszych konkurentów, w tym Whisper Large v3 od OpenAI czy Scribe v2 autorstwa ElevenLabs.

Kluczem do sukcesu Transcribe okazał się balans między dokładnością a czystą mocą obliczeniową. Średni współczynnik błędów (Word Error Rate – WER) na poziomie 5,42% stawia go na szczycie zestawienia dokładności. Jednak to metryka RTFx, określająca szybkość przetwarzania dźwięku w stosunku do czasu rzeczywistego, pokazuje technologiczną przewagę Cohere. Z wynikiem 525 jednostek model ten deklasuje rywali, takich jak NVIDIA Canary czy Voxtral Realtime, oferując najkrótszy czas oczekiwania na tekst przy zachowaniu najwyższej wierności zapisu.

Szeroka dostępność i integracja z ekosystemem

Mimo imponujących parametrów Cohere zdecydowało się na otwartą formułę dystrybucji. Transcribe jest dostępny na licencji Apache 2.0, co pozwala programistom i firmom na swobodne pobieranie go z platformy Hugging Face. Model wspiera obecnie 14 języków, w tym kluczowe rynki, takie jak angielski, francuski, niemiecki czy japoński. Dla podmiotów szukających gotowych rozwiązań infrastrukturalnych firma udostępniła narzędzie poprzez własne API oraz platformę Model Vault.

Deweloperzy z Toronto nie traktują jednak Transcribe wyłącznie jako samodzielnego produktu. Nowy silnik ASR ma stać się fundamentem dla North – autorskiej platformy agentów AI. Integracja ta sugeruje, że Cohere dąży do stworzenia kompleksowego ekosystemu, w którym interakcja głosowa z maszyną będzie odbywać się bez opóźnień typowych dla obecnej generacji asystentów. Choć konkurencja w segmencie mowy jest ogromna, publikacja tak wydajnego modelu na zasadach open-source może wymusić na innych graczach rewizję ich strategii dostępu do technologii.

Przełom w wydajności: szybciej i trafniej niż Whisper

Szeroka dostępność i integracja z ekosystemem

Udostępnij:

Zobacz również

ElevenLabs podpisuje umowy z gwiazdami na generowanie głosów AI

Huxe: Twórcy NotebookLM stawiają na audio w nowej aplikacji do newsów i researchu

Plaud Note Pro: Dyskretny rejestrator AI, który staje się niezbędnikiem profesjonalisty