Technologia

xAI testuje funkcję rozpoznawania obiektów w trybie głosowym Grok – konkurencja dla Gemini Live?

xAI, firma Elona Muska, intensywnie pracuje nad rozwojem swojego modelu językowego Grok, dodając nowe funkcje, które mają konkurować z rozwiązaniami oferowanymi przez Google i OpenAI. Najnowsze testy wskazują na integrację trybu głosowego z funkcją rozpoznawania obiektów, co może znacząco rozszerzyć możliwości zastosowania Grok w realnym świecie.

Rozpoznawanie obiektów w Grok – odpowiedź na Gemini Live?

W najnowszej wersji Grok na iOS pojawiła się opcja „Object Highlighting”, sugerująca, że asystent będzie mógł wizualnie identyfikować i podświetlać obiekty w czasie rzeczywistym. Funkcja ta przypomina zapowiedziane możliwości Gemini Live od Google, oparte na demonstracji Project Astra. Wydaje się, że xAI śledzi rozwój konkurencji i aktywnie pracuje nad tym, by Grok nie odstawał w kluczowych obszarach multimodalności.

Integracja rozpoznawania obiektów może być szczególnie przydatna w scenariuszach, gdzie użytkownik potrzebuje szybkiej identyfikacji przedmiotów bez użycia rąk – np. w zastosowaniach związanych z dostępnością lub kontrolą inteligentnych urządzeń. Implementacja takiej funkcji to spore wyzwanie techniczne, wymagające zaawansowanego modelu, który potrafi rozpoznawać obiekty, wizualnie je oznaczać i integrować z interakcją głosową.

Grok 4.20 – przełom w rozumieniu obrazu i wideo?

Wewnętrznie, xAI pracuje nad modelami „V7”, które mają znacząco poprawić rozumienie obrazów i wideo. Spekuluje się, że nadchodzący Grok 4.20 może stanowić pomost między dotychczasową wersją (opartą na V6) a nowymi możliwościami wizyjnymi. Choć dokładna data premiery nie jest znana, aktualizacja ta z pewnością wprowadzi istotne zmiany w funkcjonalności Grok.

Usprawnienia w interfejsie i plany open source

Oprócz funkcji wizyjnych, xAI pracuje nad usprawnieniem interfejsu Grok, umożliwiając łatwe przełączanie się między czatem głosowym a tekstowym. Użytkownicy będą mogli przeglądać historię konwersacji głosowych w formie tekstowej, co ułatwi zarządzanie informacjami i usprawni pracę z asystentem.

Niedawne udostępnienie kodu Grok 2.5 oraz zapowiedź open source dla Grok 3 w ciągu najbliższych sześciu miesięcy pokazują, że xAI stawia na transparentność i otwartość. Te działania mają na celu nie tylko poszerzenie możliwości technicznych Grok, ale także konkurowanie z gigantami branży, takimi jak Google i OpenAI.

Wprowadzenie rozpoznawania obiektów, usprawnienia interfejsu oraz otwarcie kodu źródłowego to kroki, które mają umocnić pozycję Grok na rynku AI. Czy xAI uda się dogonić konkurencję i zaoferować użytkownikom kompleksowe i innowacyjne rozwiązanie? Czas pokaże.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *