AudioLLMNarzędziaNews

Claude od Anthropic wkracza na rynek konwersacji głosowych, korzystając z technologii ElevenLabs

W świecie dynamicznie rozwijających się technologii AI, firmy nieustannie poszukują sposobów na ulepszenie interakcji z użytkownikiem. Anthropic, twórca popularnego asystenta AI Claude, właśnie wprowadził tryb głosowy do swoich aplikacji mobilnych. Użytkownicy mogą teraz prowadzić rozmowy z Claude’em, wydając polecenia głosowe i słuchając odpowiedzi.

Nowa funkcja, dostępna na razie tylko w języku angielskim, ma ułatwić korzystanie z asystenta w sytuacjach, gdy użycie rąk jest ograniczone – na przykład podczas gotowania, ćwiczeń fizycznych czy w podróży. Aktywacja trybu głosowego jest prosta: wystarczy kliknąć ikonę fali dźwiękowej obok mikrofonu w polu wprowadzania tekstu. Claude oferuje pięć różnych głosów do wyboru.

Co ciekawe, Anthropic zdecydował się na wykorzystanie technologii firmy ElevenLabs do syntezy mowy, zamiast tworzyć własny model. Informację tę ujawnił programista Simon Willison, który zauważył, że ElevenLabs figuruje w warunkach świadczenia usług Anthropic jako podwykonawca w zakresie usług przetwarzania tekstu na mowę. To sugeruje, że Anthropic albo nie wyszkolił własnych modeli audio, albo nie osiągnął wystarczającej jakości syntezy mowy, aby konkurować z rozwiązaniami OpenAI czy Google. Wybór padł więc na ElevenLabs, firmę znaną z innowacyjnych rozwiązań w dziedzinie generowania naturalnie brzmiącej mowy przez AI.

Funkcjonalność, bezpieczeństwo i plany na przyszłość głosowej AI

Tryb głosowy działa w oparciu o najnowszy model Anthropic, Claude Sonnet 4. Podczas gdy Claude mówi, na ekranie w czasie rzeczywistym wyświetlane są najważniejsze punkty odpowiedzi. Użytkownicy mogą swobodnie przełączać się między trybem głosowym a tekstowym podczas rozmowy, nie tracąc kontekstu. Zapis rozmowy i podsumowanie są zapisywane i można do nich wrócić w dowolnym momencie.

Użytkownicy płatnej subskrypcji Claude’a zyskują dodatkowe możliwości. Mogą używać trybu głosowego do uzyskiwania dostępu do treści z Kalendarza Google i Gmaila. Integracja z Dokumentami Google jest natomiast ograniczona do kont Enterprise.

Anthropic zaleca korzystanie z trybu głosowego w cichym otoczeniu i mówienie w normalnym tempie. W przypadku bardziej złożonych pytań warto podzielić je na mniejsze części. Użytkownicy darmowej wersji mogą napotkać limity sesji – zwykle od 20 do 30 wiadomości głosowych – po których będą musieli poczekać lub wykupić subskrypcję. Administratorzy kont Enterprise mogą wyłączyć tryb głosowy dla swoich organizacji.

Firma Anthropic zapewnia, że tryb głosowy został zaprojektowany z myślą o bezpieczeństwie. Dostępnych jest tylko pięć predefiniowanych głosów, aby uniknąć naśladowania prawdziwych osób. Claude nie imituje istniejącej mowy ani osobowości – wszystko, co generuje, jest oryginalne. To odpowiedź na kontrowersje związane z głosami w produktach OpenAI, które brzmiały zbyt podobnie do znanych aktorów.

Anthropic w peletonie konkurencji

Wprowadzenie trybu głosowego przez Anthropic następuje kilka miesięcy po tym, jak podobne funkcje uruchomiły OpenAI i Google. OpenAI zaprezentowało swój zaawansowany tryb głosowy w maju 2024 roku i wkrótce udostępniło go użytkownikom ChatGPT Plus. Google również zaprezentowało możliwości głosowe na swojej konferencji I/O w tym samym miesiącu.

Choć Anthropic od dawna koncentruje się na swoim biznesie API dla przedsiębiorstw, wprowadzenie trybu głosowego sugeruje rosnące zainteresowanie narzędziami skierowanymi do konsumentów. Nawet jeśli Claude osiąga lepsze wyniki w testach porównawczych AI, większość użytkowników prawdopodobnie bardziej doceni praktyczne interfejsy – takie jak głos i interakcja na żywo – w codziennym użytkowaniu.

Wykorzystanie zewnętrznego dostawcy do syntezy mowy może budzić pytania o długoterminową strategię Anthropic. Czy firma planuje w przyszłości rozwijać własne, autorskie rozwiązanie? Czas pokaże. Na razie użytkownicy mogą cieszyć się wygodą i dostępnością trybu głosowego, bazującego na technologii ElevenLabs.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *