OpenSeeker: Przełamanie monopolu gigantów technologicznych w dziedzinie autonomicznych agentów wyszukiwania
Rynek zaawansowanych agentów AI wyspecjalizowanych w przeszukiwaniu internetu przez długi czas pozostawał w rękach korporacji o niemal nieograniczonych zasobach. Systemy zdolne do wieloetapowego wnioskowania i samodzielnego weryfikowania informacji w sieci były traktowane jako pilnie strzeżone tajemnice handlowe. Zespół badawczy z Shanghai Jiao Tong University postanowił rzucić wyzwanie temu status quo, prezentując OpenSeeker – projekt, który udostępnia nie tylko wagi modelu, ale także kompletny kod i, co najważniejsze, dane treningowe.
Architektura oparta na strukturze sieci, a nie przypadku
Innowacja OpenSeeker nie polega na brutalnej sile, czyli karmieniu modelu masową ilością tekstu. Naukowcy oparli proces uczenia na analizie realnych powiązań między stronami internetowymi. Wykorzystując grafy linków, system buduje pary pytań i odpowiedzi, które wymuszają na sztucznej inteligencji coś więcej niż tylko proste dopasowanie słów kluczowych. Ważnym elementem tej strategii jest celowe zaciemnianie konkretnych nazw i terminów w zapytaniach. Zamiast pytać o konkretną osobę, model otrzymuje ogólny opis, co zmusza go do wykonania kilku kroków wyszukiwania i logicznego łączenia faktów z różnych źródeł.
Aby zapewnić najwyższą jakość bazy treningowej, zastosowano rygorystyczny, dwuetapowy filtr. Każde pytanie musi spełniać dwa warunki: być niemożliwe do rozwiązania dla standardowego modelu bez dostępu do narzędzi wyszukiwawczych oraz w pełni rozwiązywalne, gdy agent ma dostęp do pełnego kontekstu sieciowego. Takie podejście eliminuje banalne treści, które nie wnoszą wartości do procesu uczenia agenta.
Metoda uczeń-nauczyciel w walce z szumem informacyjnym
Jednym z największych wyzwań dla agentów AI jest odróżnienie sygnału od szumu, którego w internecie jest pod dostatkiem. OpenSeeker został wyszkolony przy użyciu metody uczeń-nauczyciel. Model „nauczyciel” otrzymuje wstępnie oczyszczone streszczenia wyników wyszukiwania, na podstawie których podejmuje optymalne decyzje. Z kolei model „uczeń” widzi surowe, nieobrobione dane, ale ma za zadanie odtworzyć wysokiej jakości ścieżkę decyzyjną nauczyciela. Dzięki temu mechanizmowi agent uczy się samodzielnej nawigacji w chaosie informacyjnym współczesnego internetu.
Efektywność ponad skalę
Wyniki OpenSeeker są zaskakujące, biorąc pod uwagę nakłady. Model oparty na Qwen3-30B-A3B został poddany zaledwie jednej sesji strojenia (SFT) na zbiorze zaledwie 11 700 przykładów. Dla porównania konkurencyjny MiroThinker wykorzystał aż 147 000 próbek danych, a mimo to OpenSeeker osiągnął ponad trzykrotnie lepszy wynik w benchmarku BrowseComp-ZH, zdobywając 48,4% punktów i wyprzedzając rozwiązania od Alibaba.
Choć OpenSeeker wciąż ustępuje najpotężniejszym zamkniętym modelom, takim jak GPT-5-High czy DeepSeek-V3.2, luka ta drastycznie się zmniejsza. Sukces tego projektu sugeruje, że przyszłość AI nie musi należeć wyłącznie do firm dysponujących największymi klastrami serwerów. Kluczem do stworzenia inteligentnego agenta wyszukiwania okazuje się nie tyle objętość danych, co ich strukturalna jakość i zdolność modelu do autonomicznego korygowania ścieżek dostępu do informacji.
