Google AI: Przełom w badaniach dzięki iteracyjnemu modelowi TTD-DR
Agenci głębokich badań (DR) stają się coraz powszechniejsi w nauce i przemyśle, głównie za sprawą postępów w dużych modelach językowych (LLM). Jednak większość dostępnych rozwiązań pomija kluczowe aspekty ludzkiego procesu myślenia i pisania. Brak im ustrukturyzowanych etapów, takich jak tworzenie roboczych wersji, wyszukiwanie i wykorzystywanie informacji zwrotnej, co jest domeną ludzkich badaczy. Obecne systemy DR często bazują na niepowiązanych ze sobą algorytmach i narzędziach, co podkreśla pilną potrzebę stworzenia spójnych struktur zdolnych dorównać, a nawet przewyższyć ludzkie możliwości badawcze.
Luka w istniejących rozwiązaniach
Obecne metody badawcze bazujące na AI wykazują znaczącą lukę poznawczą w porównaniu z ludzkimi procesami. Chociaż systemy te wykorzystują iteracyjne algorytmy udoskonalające, mechanizmy debaty, ranking hipotez i systemy autokrytyki do generowania propozycji badawczych, brakuje im spójnego podejścia, które naśladowałoby ludzką intuicję i cykliczność myślenia. Wielu agentów DR stosuje liniowe lub równoległe procesy, co ogranicza ich zdolność do dynamicznego adaptowania się i doskonalenia w miarę odkrywania nowych informacji.
TTD-DR: Ludzka perspektywa w AI
Naukowcy z Google AI, zainspirowani iteracyjną naturą ludzkich badań, wprowadzili Test-Time Diffusion Deep Researcher (TTD-DR). System ten postrzega generowanie raportów badawczych jako proces dyfuzyjny, który rozpoczyna się od wstępnego szkicu, pełniącego rolę dynamicznego zarysu i fundamentu kierującego procesem. Ten szkic jest następnie poddawany iteracyjnemu „odszumianiu”, czyli doskonaleniu. Proces ten jest dynamicznie wzbogacany przez mechanizm wyszukiwania, który na bieżąco integruje zewnętrzne informacje. Takie podejście, zorientowane na ciągłe modyfikowanie roboczej wersji, ma na celu przyspieszenie i uspójnienie procesu pisania raportów, jednocześnie minimalizując utratę informacji w trakcie iteracyjnych wyszukiwań.
Architektura i działanie
TTD-DR składa się z trzech głównych etapów: generowania planu badawczego, iteracyjnego wyszukiwania i syntezy oraz generowania raportu końcowego. Każdy z nich zawiera agenty LLM, przepływy pracy i stany agentów. System wykorzystuje samoeewoluujące algorytmy, które mają za zadanie poprawić wydajność każdego etapu, zapewniając identyfikację i zachowanie wysokiej jakości kontekstu. Algorytm ten, inspirowany ostatnimi pracami nad samoewolucją, funkcjonuje równolegle z sekwencyjnymi i zapętlonymi przepływami pracy. Można go zastosować na wszystkich trzech etapach, co pozwala na poprawę ogólnej jakości generowanych danych.
Wyniki i perspektywy
TTD-DR osiąga wyniki zgodne z oczekiwaniami, zwłaszcza w benchmarkach wymagających intensywnego wyszukiwania i rozumowania wieloetapowego. W bezpośrednich porównaniach z OpenAI Deep Research, TTD-DR uzyskał 69,1% i 74,5% wskaźników zwycięstw w zadaniach generowania raportów długiej formy, przewyższając konkurenta o 4,8%, 7,7% i 1,7% w trzech zbiorach danych badawczych z krótkimi odpowiedziami referencyjnymi. System zademonstrował również silne wyniki w kategoriach „Pomocności” i „Kompleksowości” (oceniane automatycznie), szczególnie w przypadku badań długiej formy. Algorytm samoeewolucyjny osiągnął 60,9% i 59,8% wskaźników zwycięstw w porównaniu z OpenAI Deep Research w zadaniach LongForm Research i DeepConsult. Chociaż wynik poprawności poprawił się o 1,5% i 2,8% w zbiorach danych HLE, wydajność w GAIA pozostaje o 4,4% niższa niż w OpenAI DR. Włączenie dyfuzji z mechanizmem wyszukiwania (Diffusion with Retrieval) prowadzi jednak do znacznych zysków w porównaniu z OpenAI Deep Research we wszystkich benchmarkach.
Google prezentuje TTD-DR jako metodę, która adresuje fundamentalne ograniczenia obecnych systemów poprzez human-centricznie zaprojektowany proces poznawczy. Koncepcyjnie, tworzenie raportów badawczych staje się procesem dyfuzyjnym, gdzie aktualizowalny szkielet wersji roboczej kieruje przebiegiem badań. TTD-DR, wspierany przez samoeewolucyjne algorytmy, zapewnia wysokiej jakości kontekst na każdym etapie. Ocena potwierdza jego wiodącą wydajność w zadaniach wymagających intensywnego wyszukiwania i rozumowania wieloetapowego, zarówno w kompleksowych raportach długiej formy, jak i zwięzłych, wieloetapowych zadaniach.
