Technologia

SoundHound AI wyposaża sztuczną inteligencję w „oczy”. Rewolucja w interakcji człowiek-maszyna?

SoundHound AI, firma znana przede wszystkim z zaawansowanych rozwiązań w dziedzinie asystentów głosowych, ogłosiła wprowadzenie do swojej technologii komponentu wizyjnego. Nowe rozwiązanie, nazwane Vision AI, ma na celu połączenie możliwości rozpoznawania obrazu z dotychczasową sprawnością w przetwarzaniu mowy naturalnej, tworząc w ten sposób system, który lepiej rozumie intencje użytkownika i reaguje w bardziej intuicyjny sposób.

Wyobraźmy sobie sytuację, w której przejeżdżamy obok charakterystycznego budynku i, bez konieczności sięgania po smartfona, pytamy nasz samochód: „Co to za budynek?”. Dzięki Vision AI, odpowiedź uzyskalibyśmy natychmiast. SoundHound AI, wzorując się na ludzkim sposobie interakcji, chce, aby urządzenia „widziały” tak jak my, interpretując gesty i kontekst wizualny.

„Wierzymy, że przyszłość AI to nie tylko multimodalność, ale przede wszystkim głęboka integracja, responsywność i realny wpływ na otaczający nas świat,” powiedział Keyvan Mohajer, CEO SoundHound AI. „Vision AI to kolejny krok w kierunku redefinicji interakcji z technologią.”

Jak to działa?

Vision AI analizuje obraz z kamery w czasie rzeczywistym i łączy go z przetwarzaniem mowy naturalnej. Dzięki jednoczesnej analizie danych wizualnych i dźwiękowych, system jest w stanie lepiej zrozumieć intencje użytkownika. Przykładowo, mechanik noszący inteligentne okulary może zapytać o instrukcje dotyczące konkretnej części silnika, otrzymując natychmiastowe wskazówki wizualne i dźwiękowe, bez odkładania narzędzi.

Przedsiębiorstwa mogą wykorzystać tę technologię do inwentaryzacji towarów w sklepie poprzez skanowanie wzrokiem półek lub do wizualnego potwierdzania zamówień w kioskach drive-thru. Technologicznym wyzwaniem jest zapewnienie idealnej synchronizacji między elementami audio i wizualnymi, aby uniknąć opóźnień, które mogłyby zakłócić naturalność interakcji.

„W Vision AI łączymy rozpoznawanie wizualne i inteligencję konwersacyjną w jeden zsynchronizowany proces,” wyjaśnia Pranav Singh, VP of Engineering w SoundHound AI. „Każda klatka obrazu, każde słowo, każda intencja są interpretowane w jednym ekosystemie, zapewniając szybsze i bardziej naturalne interakcje użytkownika.”

Amelia 7.1 usprawnia działanie

Oprócz Vision AI, SoundHound wprowadza również ulepszenia do swojego systemu głównego. Aktualizacja Amelia 7.1 ma na celu przyspieszenie i zwiększenie dokładności działania agentów AI, dając firmom większą kontrolę nad ich pracą. Łącząc wzrok i słuch, SoundHound AI dąży do stworzenia świata, w którym interakcja ze sztuczną inteligencją będzie równie naturalna, jak rozmowa z drugim człowiekiem. Pytanie, czy ta wizja ma szansę zrealizować się w niedalekiej przyszłości?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *