Google i OpenAI w jednym ringu. Dzień, w którym premiery AI zderzyły się czołowo
W czwartek Google ogłosiło premierę nowej wersji swojego narzędzia analitycznego, nazwanego Gemini Deep Research. To, co firma określa jako „zaprojektowanego na nowo” agenta AI, bazuje na jej najnowszym modelu fundamentalnym, Gemini 3 Pro. Nie jest to jednak proste narzędzie do generowania raportów. Prawdziwą nowością jest udostępnienie programistom interfejsu API Interactions, który pozwala zintegrować zaawansowane możliwości analityczne bezpośrednio z ich własnymi aplikacjami.
Agent, który ma myśleć za nas
Nowy Gemini Deep Research został zaprojektowany jako wyspecjalizowany agent zdolny do syntezy ogromnych ilości informacji i przetwarzania złożonych zapytań z dużym kontekstem. Google informuje, że jego klienci już wykorzystują podobne technologie do zadań wymagających precyzji, od analiz due diligence po badania toksyczności leków. Firma nie ukrywa swoich ambicji – wkrótce technologia ta ma zostać zintegrowana z kluczowymi usługami, takimi jak wyszukiwarka Google, Google Finance czy aplikacja Gemini. To kolejny krok w kierunku przyszłości, w której to nie człowiek, a dedykowany agent AI będzie przeszukiwał i analizował informacje.
Problem z faktami i wojna na benchmarki
Google podkreśla, że siłą napędową nowego narzędzia jest Gemini 3 Pro, określany jako „najbardziej faktograficzny” model firmy, zoptymalizowany pod kątem minimalizowania halucynacji. To kluczowa kwestia, zwłaszcza w przypadku autonomicznych agentów wykonujących wieloetapowe zadania. Im więcej decyzji model musi podjąć samodzielnie w trakcie wielogodzinnej analizy, tym większe ryzyko, że jeden błędny, „wyhalucynowany” wniosek zniweczy cały wysiłek.
Aby udowodnić swoją przewagę, Google stworzyło kolejny benchmark, nazwany bez większej fantazji DeepSearchQA, który ma testować modele w złożonych zadaniach wymagających wyszukiwania informacji. Został on udostępniony jako open source. Agent został też sprawdzony w niezależnych testach, jak Humanity’s Last Exam czy BrowserComp. Jak można było przewidzieć, na własnym poligonie testowym nowy agent Google okazał się bezkonkurencyjny. W pozostałych testach jego przewaga nie była już tak oczywista – w BrowserComp nieznacznie lepszy okazał się GPT-4 Turbo od OpenAI.
Odpowiedź OpenAI była natychmiastowa
Porównania te straciły jednak na znaczeniu niemal w chwili publikacji. Tego samego dnia OpenAI zaprezentowało swój długo oczekiwany model GPT-5.2, rozwijany pod kryptonimem „Garlic”. Firma, podobnie jak konkurent, twierdzi, że jej nowa technologia deklasuje rywali w kluczowych testach, wliczając w to benchmarki stworzone przez samo OpenAI.
Zbieżność dat obu premier trudno uznać za przypadek. Wiedząc o nadchodzącym debiucie „Garlic”, Google zdaje się próbować przejąć inicjatywę i skupić na sobie uwagę rynku. Ten dzień dobitnie pokazał, że wyścig technologiczny między gigantami AI przybiera na sile, a walka o miano lidera rozgrywa się już nie tylko w laboratoriach, ale także w sferze strategicznych komunikatów prasowych.
