Audio

Microsoft rzuca wyzwanie liderom STT: MAI-Transcribe-1 zmienia zasady gry

Precyzja w trudnych warunkach

Microsoft nie zwalnia tempa w wyścigu na rynku AI, wprowadzając model MAI-Transcribe-1. Nowa architektura speech-to-text (STT) obsługuje 25 języków i – według danych producenta – osiąga najniższy wskaźnik błędów Word Error Rate (WER) w testach FLEURS. Model wyprzedził w zestawieniu tak uznane rozwiązania jak Whisper-large-V3 od OpenAI czy Gemini 3.1 Flash-Lite od Google. Kluczową przewagą MAI-Transcribe-1 ma być stabilność w scenariuszach „brudnego” dźwięku – Microsoft deklaruje, że system radzi sobie z silnym szumem tła, słabą jakością nagrań oraz nakładającymi się głosami rozmówców lepiej niż poprzednicy.

Przełom w ekonomii przetwarzania audio

To jednak nie parametry lingwistyczne, a efektywność operacyjna może okazać się decydującym argumentem dla biznesu. MAI-Transcribe-1 przetwarza dźwięk 2,5 raza szybciej niż dotychczasowe rozwiązanie Azure Fast, przy zachowaniu agresywnej polityki cenowej na poziomie 0,36 USD za godzinę audio.

Model staje się fundamentem ekosystemu Microsoft, trafiając bezpośrednio do Copilot Voice oraz Microsoft Teams. Firma udostępniła go już deweloperom w ramach publicznego podglądu w Microsoft Foundry oraz AI Playground. W połączeniu z modelem MAI-Voice-1, nowa jednostka ma służyć do budowy zaawansowanych agentów głosowych o minimalnych opóźnieniach.

Rynkowy kontekst i konkurencja

Choć wyniki Microsoftu robią wrażenie, rynek STT pozostaje nasycony i wysoce konkurencyjny. Warto zauważyć, że niemal równocześnie alternatywy o zbliżonej wydajności zaprezentowały firmy Cohere oraz Mistral, stawiając na model open-source. Sukces MAI-Transcribe-1 będzie zatem zależał nie tylko od czystych parametrów technicznych, ale od głębokości integracji z infrastrukturą Azure, która dla wielu przedsiębiorstw pozostaje domyślnym środowiskiem pracy z danymi.