Google wprowadza Gemini Deep Think: Model rozumowania, który stawia na równoległe testowanie pomysłów
Google DeepMind zapowiedziało wprowadzenie Gemini 2.5 Deep Think, określając go jako swój najbardziej zaawansowany model rozumowania AI. Jego kluczową cechą jest zdolność do równoczesnego eksplorowania i rozważania wielu pomysłów, aby wybrać najbardziej optymalną odpowiedź na zadane pytanie. Ta innowacja będzie dostępna dla subskrybentów Google Ultra, wycenionej na 250 USD miesięcznie, począwszy od piątku.
Zaprezentowany po raz pierwszy w maju, podczas Google I/O 2025, Gemini 2.5 Deep Think to pierwszy publicznie dostępny model wieloagentowy Google. Systemy tego typu generują wiele agentów AI, którzy równolegle zajmują się danym zagadnieniem. Choć proces ten zużywa znacznie więcej zasobów obliczeniowych niż pojedynczy agent, zazwyczaj prowadzi do znacznie lepszych wyników. Warto dodać, że Google wykorzystało zmodyfikowaną wersję Gemini 2.5 Deep Think do zdobycia złotego medalu na tegorocznej Międzynarodowej Olimpiadzie Matematycznej (IMO).
Równocześnie z Gemini 2.5 Deep Think, Google udostępnia model użyty na IMO wybranej grupie matematyków i akademików. Jak podkreśla firma, ten konkretny model AI „potrzebuje godzin na rozumowanie”, w przeciwieństwie do sekund lub minut, co jest typowe dla większości modeli AI przeznaczonych dla konsumentów. Google liczy na to, że model IMO przyczyni się do usprawnienia badań i pozwoli zebrać opinie na temat dalszego rozwoju systemu wieloagentowego do zastosowań akademickich.
Google twierdzi, że model Gemini 2.5 Deep Think stanowi znaczące ulepszenie w stosunku do tego, co zapowiedziano na I/O. Firma dodatkowo podkreśla opracowanie „nowatorskich technik uczenia ze wzmocnieniem”, mających na celu zachęcenie Gemini 2.5 Deep Think do lepszego wykorzystania ścieżek rozumowania. „Deep Think może pomóc ludziom w rozwiązywaniu problemów wymagających kreatywności, strategicznego planowania i stopniowego wprowadzania ulepszeń” – przekazało Google w komunikacie dla mediów.
Firma twierdzi, że Gemini 2.5 Deep Think osiąga najwyższą wydajność w teście Humanity’s Last Exam (HLE) – wymagającym sprawdzianie mierzącym zdolność AI do udzielania odpowiedzi na tysiące pytań z matematyki, nauk humanistycznych i ścisłych. Google podaje, że jego model uzyskał wynik 34,8% w HLE (bez użycia narzędzi), podczas gdy Grok 4 xAI osiągnął 25,4%, a o3 OpenAI – 20,3%.
Google informuje również, że Gemini 2.5 Deep Think przewyższa modele AI od OpenAI, xAI i Anthropic w teście LiveCodeBench6, mierzącym zdolność do realizacji zadań z zakresu programowania. Model Google osiągnął wynik 87,6%, podczas gdy Grok 4 uzyskał 79%, a o3 OpenAI – 72%. Gemini 2.5 Deep Think automatycznie współpracuje z narzędziami takimi jak środowisko do wykonywania kodu i wyszukiwarka Google, a firma zapowiada, że jest zdolny do generowania „znacznie dłuższych odpowiedzi” niż tradycyjne modele AI. W przeprowadzonych przez Google testach model generował bardziej szczegółowe i estetyczne zadania związane z tworzeniem stron internetowych w porównaniu do innych modeli AI. Firma twierdzi, że model może wspierać badaczy i „potencjalnie przyspieszyć proces odkryć naukowych”.
Wydaje się, że szereg wiodących laboratoriów AI w coraz większym stopniu skłania się ku podejściu wieloagentowemu. xAI, firma Elona Muska, niedawno wydała swój własny system wieloagentowy, Grok 4 Heavy, który, jak twierdzi firma, osiągnął wiodącą w branży wydajność w kilku benchmarkach. Z kolei Noam Brown, badacz z OpenAI, w podcaście stwierdził, że nieujawniony model AI, którego firma użyła do zdobycia złotego medalu na tegorocznej Międzynarodowej Olimpiadzie Matematycznej (IMO), również był systemem wieloagentowym. Tymczasem Research Agent Anthropic, generujący szczegółowe raporty badawcze, również jest napędzany przez system wieloagentowy.
Pomimo wysokiej wydajności, systemy wieloagentowe okazują się być kosztowniejsze w obsłudze niż tradycyjne modele AI. Oznacza to, że firmy technologiczne mogą rezerwować te systemy dla swoich najdroższych planów subskrypcyjnych, co zresztą już uczyniły xAI, a teraz również Google.
Google planuje w najbliższych tygodniach udostępnić Gemini 2.5 Deep Think wybranej grupie testerów za pośrednictwem API Gemini. Firma chce lepiej zrozumieć, w jaki sposób deweloperzy i przedsiębiorstwa mogą wykorzystać jej system wieloagentowy.
