Hume przedstawia EVI 3: Model AI do obsługi klienta i opowiadania historii
Nowojorski startup Hume, specjalizujący się w rozwiązaniach AI, przedstawił swoją najnowszą Empathic Voice Interface (EVI) – model EVI 3. Ta innowacyjna technologia ma zmienić sposób, w jaki postrzegamy obsługę klienta, opowiadanie historii oraz interakcje wirtualne. EVI 3 pozwala użytkownikom tworzyć własne głosy poprzez konwersację, celem osiągnięcia nowego standardu w naturalności, ekspresji i empatii.
Wykorzystując EVI 3, użytkownicy mogą tworzyć głosy, które nie tylko dokładnie odzwierciedlają ich preferencje, ale także są w stanie adaptować się do Emotional Intelligence (EI), która pozwala na pochwytywanie i odzwierciedlanie emocji. To oznacza, że EVI 3 może służyć zarówno jako empatyczny przewodnik w systemach obsługi klienta, jak i jako zabawny narrator w projektach gamingowych lub audiobookach.
W przetestowanych przez Hume porównaniach z 1720 użytkownikami, EVI 3 uzyskał wyższe oceny niż model GPT-4o od OpenAI w kategorach takich jak naturalność, ekspresja, empatia oraz szybkość reakcji. Model wypadł również lepiej niż konkurencyjne rozwiązania od Google (Gemini) oraz Sesame.
Deweloperzy mają zyskać dostęp do EVI 3 przez API podobno już niebawem, umożliwiając im wbudowanie tej technologii w ich projekty, od systemów obsługi klienta po asystentów wirtualnych. Hume oferuje elastyczne, oparte na użyciu cenowania, z darmową warstwą dla twórców i przystępnymi planami dla przedsiębiorstw.
W przeciwieństwie do tradycyjnych chatbotów czy asystentów głosowych, które w dużej mierze opierają się na skryptach lub interakcjach tekstowych, EVI 3 dostosowuje się do naturalnego sposobu mówienia ludzi. Rozpoznaje intonację, prozodię, pauzy i wokalizacje, co pozwala jej tworzyć bardziej angażujące, ludzkie rozmowy.
Zdaniem Ala Cowena, założyciela Hume, EVI 3 jest kolejnym krokiem w nadaniu AI wrażenia większej empatii i bardziej ludzkiej natury, co ma zrewolucjonizować sposób, w jaki wchodzimy w interakcje z technologią.
Wyzwania i przyszłość dla modeli Hume
Choć modele sztucznej inteligencji rozwijają się w zawrotnym tempie, jeden z kluczowych aspektów wciąż pozostaje wyzwaniem dla niektórych graczy rynkowych. Firma Hume, mimo zaawansowanych rozwiązań, dotychczas nie oferowała funkcji klonowania głosu, czyli szybkiego odtwarzania brzmienia głosu użytkownika lub innej osoby, na przykład dyrektora generalnego. Jest to zdolność powszechnie dostępna u konkurencji, zarówno wśród otwartych źródeł, jak i komercyjnych platform, takich jak ElevenLabs.
Hume zapowiedział jednak znaczącą innowację. Na stronie internetowej firmy pojawiła się informacja o nadchodzącej funkcji klonowania głosu w ich modelu syntezy mowy Octave. Wcześniejsze doniesienia sugerują, że aby sklonować głos, wystarczy zaledwie pięć sekund nagrania audio. Przed wdrożeniem tej przełomowej technologii na szeroką skalę, Hume deklaruje priorytetowe traktowanie kwestii zabezpieczeń i etyki. Obecnie ta zaawansowana funkcja klonowania nie jest zintegrowana z modelem EVI; zamiast tego, Hume koncentruje się na elastycznych opcjach personalizacji głosu, dając użytkownikom szeroki wybór barw i stylów. To strategiczne podejście wskazuje na ostrożność firmy w obliczu potencjalnych dylematów etycznych, związanych z replikacją ludzkiego głosu.
