AudioR & DUrządzenia

OpenAI stawia na interfejs audio: Ofensywa technologiczna bez ekranów

OpenAI redefiniuje swoje priorytety, koncentrując się na rozwoju sztucznej inteligencji w obszarze audio. Firma, zamiast jedynie udoskonalać możliwości dźwiękowe ChatGPT, dokonała restrukturyzacji zespołów inżynierskich, produktowych i badawczych. Ich wspólnym celem jest gruntowne przekształcenie modeli audio, co ma przygotować grunt pod premierę autorskiego urządzenia osobistego, bazującego na interfejsie audio, przewidywaną na przyszły rok.

Strategia OpenAI odzwierciedla szerszą tendencję w branży technologicznej, zmierzającą ku przyszłości, w której ekrany ustępują miejsca dominacji dźwięku. Asystenci głosowi, zintegrowani ze smartfonami i inteligentnymi głośnikami, są już powszechnym elementem amerykańskich domów. Inne firmy również aktywnie eksplorują ten kierunek. Meta wprowadziła funkcję w swoich okularach Ray-Ban, która wykorzystuje system pięciu mikrofonów do wzmocnienia rozmów w hałaśliwym otoczeniu, efektywnie przekształcając twarz użytkownika w precyzyjne narzędzie do słuchania. Google eksperymentuje z „Audio Overviews”, czyli konwersacyjnymi streszczeniami wyników wyszukiwania. Z kolei Tesla integruje modele językowe, takie jak Grok, ze swoimi pojazdami, tworząc asystentów głosowych zdolnych do obsługi nawigacji czy klimatyzacji poprzez naturalny dialog.

Od nieudanych eksperymentów do innowacyjnych rozwiązań

Nie tylko giganci technologiczni dostrzegają potencjał interfejsów audio. Liczne startupy również podążają tą ścieżką, choć z różnym skutkiem. Przykładem jest nieudany eksperyment w postaci Humane AI Pin, który pochłonął setki milionów dolarów, stając się przestrogą przed nadmiernym optymizmem. Inne projekty, takie jak naszyjnik Friend AI, rejestrujący życie użytkownika i oferujący towarzystwo, wywołują z kolei kontrowersje związane z prywatnością i budzą lęki egzystencjalne. Na horyzoncie pojawiają się również pierścienie AI, m.in. autorstwa firmy Sandbar i projektu Erica Migicovsky’ego (założyciela Pebble), które mają zadebiutować w 2026 roku, umożliwiając dosłowną interakcję głosową z dłonią.

Mimo różnorodności form urządzeń podstawowa teza pozostaje niezmieniona: audio to interfejs przyszłości. Każda przestrzeń – dom, samochód, a nawet nasze ciało – staje się punktem styku z technologią.

Nowy wymiar konwersacji: Dążenie do naturalności

Nowy model audio OpenAI, którego premiera planowana jest na początek tego roku, ma oferować bardziej naturalne brzmienie, zdolność do zarządzania przerwaniami w rozmowie oraz możliwość mówienia, gdy jednocześnie mówi użytkownik – funkcje, których obecne modele nie są w stanie zapewnić. Firma przewiduje również całą rodzinę urządzeń, obejmujących okulary lub bezekranowe głośniki inteligentne, które mają pełnić rolę bardziej towarzyszy niż narzędzi.

Jak donosi The Information, Jony Ive, były szef działu projektowego Apple, który dołączył do OpenAI w wyniku przejęcia jego firmy io za 6,5 miliarda dolarów, stawia sobie za priorytet zmniejszenie uzależnienia od urządzeń. Upatruje w projektach opartych na interfejsie audio szansy na „naprawienie błędów” popełnionych w przeszłości w projektowaniu gadżetów konsumenckich.