Mistral wprowadza Voxtral: Otwarty model audio AI rzuca wyzwanie dominacji gigantów
Wraz z rosnącymi możliwościami sztucznej inteligencji, komunikacja głosowa staje się podstawowym sposobem interakcji z maszynami. W tym kontekście francuski startup Mistral, znany z promowania otwartych modeli AI, wkracza na rynek z Voxtral – swoją pierwszą rodziną modeli audio.
Mistral pozycjonuje Voxtral jako pierwszy na świecie otwarty model zdolny do wdrożenia „naprawdę użytecznej inteligencji mowy w środowiskach produkcyjnych”. Zdaniem firmy, rozwiązuje to od dawna istniejący dylemat deweloperów, którzy musieli wybierać pomiędzy tanimi, otwartymi systemami o ograniczonej precyzji a zamkniętymi, ale wydajnymi platformami, wiążącymi się z wyższymi kosztami i mniejszą kontrolą.
Dla przedsiębiorstw oznacza to dostęp do przystępnej cenowo alternatywy. Mistral deklaruje, że Voxtral jest „mniej niż o połowę tańszy” w porównaniu do konkurencyjnych rozwiązań.
Voxtral umożliwia transkrypcję do 30 minut, a dzięki wykorzystaniu architektury dużego modelu językowego (LLM), Mistral Small 3.1, jest w stanie zrozumieć kontekst nawet 40-minutowych nagrań. Pozwala to użytkownikom na zadawanie pytań dotyczących treści audio, generowanie streszczeń czy przekształcanie komend głosowych w działania w czasie rzeczywistym, takie jak wywoływanie API czy uruchamianie funkcji. Model jest również wielojęzyczny, obsługując transkrypcję i rozumienie w językach takich jak angielski, hiszpański, francuski, portugalski, hindi, niemiecki, holenderski i włoski.
Firma oferuje dwie warianty swoich modeli do rozumienia mowy. Pierwszy, Voxtral Small, dysponuje 24 miliardami parametrów i jest przeznaczony do wdrożeń na skalę produkcyjną. Mistral twierdzi, że model ten jest konkurencyjny wobec rozwiązań takich jak ElevenLabs Scribe, GPT-4o-mini czy Gemini 2.5 Flash.
Drugi wariant, Voxtral Mini, z 3 miliardami parametrów, został zaprojektowany z myślą o wdrożeniach lokalnych i na urządzeniach brzegowych (edge devices). Dostępna jest również ultraprzystępna cenowo, uproszczona i szybka wersja API modelu 3B, nazwana Voxtral Mini Transcribe. Zoptymalizowano ją wyłącznie pod kątem transkrypcji, z obietnicą przewyższenia wydajności OpenAI Whisper za mniej niż połowę ceny.
Użytkownicy mogą bezpłatnie wypróbować Voxtral, pobierając API z platformy Hugging Face lub testując modele w chatbotie Mistral – Le Chat. Integracja API z aplikacjami rozpoczyna się od 0,001 dolara za minutę, co potwierdza firma.
Premiera Voxtral następuje miesiąc po ogłoszeniu Magistral, pierwszej rodziny modeli rozumowania Mistral, które analizują problemy krok po kroku w celu zwiększenia niezawodności. Mistral, uznawany za jedną z czołowych firm AI w Europie, jest silnym orędownikiem otwartych modeli sztucznej inteligencji. Niedawne doniesienia TechCrunch sugerują, że firma prowadzi rozmowy w sprawie pozyskania do 1 miliarda dolarów kapitału od inwestorów, w tym funduszu MGX z Abu Zabi.
