Agenci AITechnologia

Google testuje nowe tryby Gemini: od autonomicznych agentów po wizualne odpowiedzi

Google rozszerza eksperymentalne funkcje w obrębie swojego modelu językowego Gemini, wykraczając poza znaną już opcję edycji obrazów „gem pix”. Najnowsze przecieki wskazują na testowanie trzech nowych trybów, które mają na celu przekształcenie Gemini w narzędzie o szerszym spektrum zastosowań.

Agent Mode: Autonomiczny asystent w akcji

Największe zainteresowanie wzbudza „Agent Mode”, którego zapowiedź pojawiła się już podczas konferencji Google I/O. Opis trybu sugeruje, że będzie on mógł wykonywać zadania autonomicznie, planować i realizować złożone procesy. To odpowiedź Google na podobne rozwiązania, takie jak agentowe workflow w ChatGPT, co sygnalizuje ambicje firmy, by Gemini stał się narzędziem do realizacji wieloetapowych zadań, a nie tylko generowania odpowiedzi na proste zapytania.

Gemini Go: Burza mózgów w chmurze

Kolejny tryb, „Gemini Go”, ma służyć do wspólnego generowania pomysłów. Opis „wspólne eksplorowanie idei” wskazuje na funkcje kolaboracyjne, potencjalnie powiązane z narzędziem Canvas, w którym już teraz można tworzyć prototypy i szkice. Nie jest jeszcze jasne, czy „Gemini Go” stanie się oddzielnym trybem, czy też będzie jedynie poligonem doświadczalnym dla integracji z Canvas.

Immersive View: Wizualizacja odpowiedzi

Trzeci testowany tryb, „Immersive View”, ma oferować „wizualne odpowiedzi na pytania”. Może to być rozszerzenie funkcji „Video Overviews” Google’a lub wykorzystanie generowania obrazów do tworzenia wizualnych wyjaśnień na żądanie. Taki tryb mógłby, przykładowo, generować uproszczone schematy działania skomplikowanych urządzeń albo prezentować dane w formie interaktywnych infografik.

Przyszłość Gemini: Platforma wszechstronnego wsparcia?

Google zaznacza, że nie wszystkie testowane tryby zostaną wprowadzone jako oddzielne opcje w interfejsie Gemini. W przeszłości wiele z nich stanowiło tymczasowe moduły testowe, które ostatecznie były integrowane z podstawową funkcjonalnością modelu. „Agent Mode” wyróżnia się jednak własną ikoną, co sugeruje, że ma szansę stać się odrębną funkcją.

Choć harmonogram wdrożeń nie jest znany, aktualizacja opisów trybów wskazuje na aktywne przygotowania do szerszego udostępnienia. Google dąży do przekształcenia Gemini z chatbota w kompleksową platformę kreatywną i autonomiczną, łączącą prototypowanie, badania i wizualne wyjaśnienia w jednym środowisku pracy. To ambitna wizja, która, jeśli zostanie zrealizowana, może znacząco zmienić sposób, w jaki korzystamy z AI w codziennej pracy i nauce.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *