Futurystyczne miasto nocą odbite w kropli na liściu z neonowymi żyłkami. Hologramy mowy.

Google rzuca wyzwanie liderom syntezy mowy: debiut modelu Gemini 3.1 Flash TTS

2026-04-15 AI Sight

Google nie zwalnia tempa w wyścigu na polu sztucznej inteligencji, tym razem uderzając w segment syntezy mowy (TTS). Nowy model Gemini 3.1 Flash TTS to znaczący skok jakościowy, który według zapewnień producenta jest najbardziej naturalnym i ekspresyjnym systemem w historii firmy. Zamiast monotonnych, robotycznych komunikatów, użytkownicy otrzymują narzędzie zdolne do obsługi skomplikowanych dialogów wieloosobowych oraz precyzyjnego oddawania subtelności ludzkiej mowy w ponad 70 językach.

Precyzyjna kontrola dzięki tagom audio

Kluczową innowacją, która wyróżnia Gemini 3.1 Flash na tle konkurencji, jest wprowadzenie tak zwanych tagów audio. To proste komendy tekstowe zaimplementowane bezpośrednio w procesie generowania, które pozwalają deweloperom na niemal reżyserską kontrolę nad efektem końcowym. Programiści mogą teraz błyskawicznie korygować tempo wypowiedzi, zmieniać tonację, a nawet narzucać konkretne akcenty. Tego rodzaju elastyczność sprawia, że model staje się atrakcyjną alternatywą dla niszowych rozwiązań narracyjnych wykorzystywanych w grach wideo czy zaawansowanych asystentach głosowych.

Ekonomia skali i starcie z ElevenLabs

W rankingach Artificial Analysis nowy model Google uzyskał wynik Elo na poziomie 1211 punktów. Co istotne, w ogólnej ocenie jakości Gemini 3.1 Flash zdołało wyprzedzić uznany model ElevenLabs v3, ustępując miejsca jedynie Inworld 1.5 Max. Jednak to stosunek jakości do ceny może okazać się decydującym argumentem rynkowym. Google wyceniło usługę na poziomie 1 USD za milion tokenów wejściowych i 20 USD za output audio, oferując jednocześnie tryb wsadowy (batch mode), który redukuje te koszty o połowę.

Bezpieczeństwo i dostępność

Google dba również o kwestie etyczne i transparentność. Każda próbka dźwiękowa wygenerowana przez nowy model jest automatycznie oznaczana cyfrowym znakiem wodnym SynthID, co pozwala na identyfikację treści stworzonych przez AI. Model jest już dostępny w wersji preview poprzez Gemini API oraz Vertex AI, a użytkownicy biznesowi mogą z niego korzystać w ramach Google Vids. Firma oferuje darmowy poziom dostępu do testów w AI Studio, choć warto pamiętać, że w tym wariancie dane mogą być wykorzystywane do doskonalenia produktów Giganta z Mountain View – prywatność gwarantowana jest dopiero w planach płatnych.

Precyzyjna kontrola dzięki tagom audio

Ekonomia skali i starcie z ElevenLabs

Bezpieczeństwo i dostępność

Udostępnij:

Zobacz również

Claude od Anthropic wkracza na rynek konwersacji głosowych, korzystając z technologii ElevenLabs

Nowy system AI ElevenLabs: Większa płynność interakcji dzięki analizie w czasie rzeczywistym

ElevenLabs ucieka gigantom. Jak polski startup zdominował globalny rynek AI audio?