Google szykuje przełom? Deep Think i tryb agenta w Gemini na horyzoncie
W kuluarach rozwoju sztucznej inteligencji, Google wydaje się przyspieszać prace nad nowymi funkcjonalnościami dla swojego modelu Gemini. Zmiany w kodzie zapowiadają rychłe udostępnienie rozwiązań bazujących na modelu Deep Think, a także intrygujący Tryb Agenta, obiecujący autonomiczne eksploracje i wykonywanie zadań.
Pierwsze sygnały wskazujące na bliską premierę Deep Think są już widoczne. Chociaż model pozostaje niewidoczny dla użytkowników, wewnętrzne testy potwierdzają jego funkcjonalność. Deep Think, znany wcześniej pod nazwą kodową Kingfall w AI Studio, w pierwszych testach generuje odpowiedzi, choć z dłuższym czasem przetwarzania niż poprzednie iteracje – dziesięć zapytań wymaga około pięciu minut. Niezależnie od wydłużonego czasu oczekiwania, jakość uzyskanych wyników wydaje się dorównywać lub nawet przewyższać te, które oferował Kingfall. To sugeruje, że Deep Think może stać się kolejnym znaczącym krokiem w ewolucji portfolio AI Google.
Co więcej, doniesienia sugerują, że publiczne udostępnienie Deep Think nastąpić może już w przyszłym tygodniu. Potwierdza to wcześniejsze spekulacje na temat relacji między Gemini 3 a modelem Kingfall, wskazując, że Kingfall był de facto modelem Deep Think.
Obok Deep Think, w zestawie narzędzi Gemini zaczynają pojawiać się inne, obiecujące funkcje. Wśród nich wymienia się narzędzie Bespoke, którego szczegółowy opis nie jest jeszcze dostępny. Sugeruje się, że Bespoke ma zapewnić spersonalizowane doświadczenia, być może poprzez adaptację odpowiedzi do indywidualnych preferencji użytkownika lub wykorzystanie jego historii. Pojawiły się również pogłoski o powiązaniu tej funkcji z trybem tworzenia opowieści, jednak to wydaje się mniej prawdopodobne, biorąc pod uwagę obecne umiejscowienie Bespoke w interfejsie użytkownika.
Kolejną nowością jest ustawienie Trybu Nauki (Learning Mode), które jest spekulacją skierowaną głównie do studentów. Ma ona oferować wsparcie w nauce, podobne do funkcji dostępnych w ChatGPT w jego wersji „Study Together”. Szczegóły dotyczące tej funkcji są wciąż mgliste, a Google nie potwierdziło jeszcze żadnego harmonogramu jej wprowadzenia.
Największe zainteresowanie budzi jednak Tryb Agenta (Agent Mode), oznaczony symbolem nieskończoności i opisany jako umożliwiający „autonomiczną eksplorację, planowanie i wykonywanie”. Chociaż szczegóły tej funkcji pozostają niejasne, potencjalnie może ona wykorzystywać zintegrowane jednostki MCP (Multimodal Control Planes) lub ramy działania agentów Google A2A (Agent-to-Agent Framework). Oznaczałoby to, że model byłby zdolny do samodzielnego wykonywania złożonych zadań przez dłuższy czas. Co intrygujące, obrazy generowane przez Gemini w Trybie Agenta miałyby trafiać do dedykowanego folderu. To nasuwa pytanie, czy agent Gemini będzie miał dostęp do pamięci masowej w celu realizacji zadań. Jeśli tak, byłoby to znaczące posunięcie, otwierające nowe możliwości dla autonomicznych systemów AI.
Wszystkie te zapowiedzi odzwierciedlają strategię Google, która koncentruje się na poszerzeniu użyteczności i elastyczności Gemini, z wyraźnym naciskiem na personalizowane i autonomiczne systemy AI. Branża technologii z niecierpliwością oczekuje na oficjalne komunikaty, zwłaszcza biorąc pod uwagę bliską premierę Deep Think. Tymczasem funkcji takich jak Bespoke, Tryb Nauki i Tryb Agenta pozostają w sferze domysłów i zakulisowych testów.
