PokeeResearch-7B — otwarty agent badawczy 7B z RLAIF i scenariuszem rozumowania
PokeeResearch-7B to otwartoźródłowy agent badawczy o 7 miliardach parametrów, którego autorzy przedstawiają jako praktyczne narzędzie do realizacji pełnych pętli badawczych. Zamiast jednorazowej odpowiedzi model ma rozbijać zadanie, korzystać z narzędzi zewnętrznych do wyszukiwania i czytania stron, weryfikować kandydatów na odpowiedź, a następnie łączyć wyniki z niezależnych wątków badawczych w ostateczną syntezę.
Architektura pętli badawczej i mechanizmy kontroli
Kluczowym elementem projektu jest formalizacja dwufazowej pętli: research (poszukiwanie) i verification (weryfikacja). W fazie research agent może wywoływać narzędzia — na przykład web search i page read — albo zaproponować tymczasową odpowiedź. W fazie verification model sprawdza swoją odpowiedź w stosunku do pozyskanych dowodów i decyduje, czy zaakceptować wynik, czy wznowić poszukiwania. Taka struktura ma ograniczać kruche trajektorie, które prowadzą do błędnych, niepodpartych twierdzeń.
Scaffold rozumowania uzupełnia się trzema mechanizmami: automatyczną korektą (wykrywanie i poprawianie niepoprawnych wywołań narzędzi), samo-weryfikacją (inspekcja własnej odpowiedzi względem dowodów) oraz Research Threads Synthesis — uruchamianiem kilku niezależnych wątków badawczych, ich podsumowywaniem i łączeniem w końcową odpowiedź. Zespół badawczy raportuje, że etap syntezy poprawia wyniki zwłaszcza na trudniejszych benchmarkach.
Recepta treningowa: RLAIF z RLOO
Model jest fine-tunowany z Qwen2.5-7B-Instruct przy użyciu podejścia oznaczanego jako RLAIF (Reinforcement Learning from AI Feedback), w którym zamiast ludzkich etykiet używa się sygnałów pochodzących od automatycznych ocen. W tym oknie autorzy zastosowali estymator REINFORCE Leave-One-Out (RLOO), który — jak twierdzą — daje nieobciążony gradient on-policy. W artykule podkreślono kontrast z rodziną PPO, którą opisano jako przybliżoną i obciążoną w kontekście tego rodzaju treningu.
Funkcja nagrody była projektowana wokół semantycznej poprawności, wierności cytowań oraz zgodności z instrukcjami — istotnie, autorzy unikają miar opartych na nakładzie tokenów (token overlap). Parametry treningu podane w karcie modelu na Hugging Face to m.in.: batch size 64, 8 wątków badawczych na prompt podczas RL, learning rate 3e-6, 140 kroków, kontekst do 32 768 tokenów, bf16 oraz checkpoint na poziomie ~13 GB.
Protokoły oceny
Ocena obejmowała 10 zbiorów testowych: NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle, GAIA, BrowseComp i Humanity’s Last Exam (HLE). Z każdego zestawu wylosowano 125 pytań (za wyjątkiem GAIA — 103), co dało łączną pulę 1 228 pytań. Dla każdego zapytania uruchamiano cztery niezależne wątki badawcze, a końcową miarą była średnia accuracy przy uwzględnieniu czterech prób (mean@4), oceniana automatycznie przez Gemini-2.5-Flash-lite.
Interakcję ograniczono maksymalnie do 100 tur, co przy złożonych zapytaniach pozostawia sporo budżetu rozmowy, ale też zwiększa koszty obliczeniowe oceny.
Wyniki
PokeeResearch-7B osiąga najwyższe zgłoszone wyniki mean@4 wśród modeli 7B skonfigurowanych jako „deep research agents” w porównaniu z niedawnymi 7B baseline’ami na wymienionych zbiorach. Przykłady z publikowanych metrów:
- HLE: 15.2 bez RTS, 17.6 z RTS (Research Threads Synthesis).
- GAIA: 36.9 bez RTS, 41.3 z RTS.
- BrowseComp: 5.4 bez RTS, 8.4 z RTS.
Na siedmiu klasycznych zestawach QA (Bamboogle, 2WikiMultiHopQA, TriviaQA, NQ, PopQA, Musique, HotpotQA) model również notuje poprawę względem ostatnich 7B konkurentów. Autorzy zaznaczają, że największe zyski od RTS obserwują na najtrudniejszych i najbardziej wymagających zestawach (HLE, GAIA, BrowseComp), natomiast na standardowych QA efekty są mniejsze.
Praktyka wdrożeniowa i dostępność
Projekt został wydany na licencji Apache-2.0 — kod i wagi są publicznie dostępne na Hugging Face i GitHubie. Zespół podał również szczegóły stosu narzędziowego: integracja z Serper i Jina oraz możliwość uruchomienia eksperymentów na jednej karcie A100 80 GB. Takie informacje są praktyczne dla osób planujących replikację lub adaptację systemu.
Ocena krytyczna i ograniczenia
PokeeResearch-7B wnosi istotny wkład w rozwój agentów badawczych: formalizacja pętli research–verification oraz syntezowanie wielu wątków to rozsądne podejścia do redukcji błędów faktograficznych. Jednak kilka kwestii wymaga uwagi przed szerokim zastosowaniem.
Po pierwsze, użycie RLAIF oznacza zależność od automatycznych sygnałów nagrody — chociaż RLOO może ograniczać obciążenia estymatora gradientu, ostateczna jakość zależy od trafności składowych nagrody (semantic correctness, citation faithfulness, instruction adherence). Po drugie, ocena oparta na Gemini-2.5-Flash-lite jako automatycznym sędzim może przenieść własne uprzedzenia tego modelu do wyników; oznacza to, że wysoka mean@4 nie jest równoważna z rygorystycznym, ludzkim audytem faktów.
Po trzecie, testy obejmowały pytania tekstowe — nie wiadomo, jak model radziłby sobie z multimodalnymi źródłami czy dłuższymi dokumentami bez dodatkowych modyfikacji. Wreszcie, maksymalny limit 100 tur oraz czterowątkowa strategia oceny wpływają zarówno na koszty obliczeniowe, jak i interpretację wyników w środowiskach produkcyjnych.
Wnioski
PokeeResearch-7B to praktyczny i transparentny krok w kierunku agentów potrafiących przeprowadzić kompletną pętlę badawczą z mechanizmami wewnętrznej weryfikacji. Połączenie RLAIF z estymatorem RLOO i wielowątkową syntezą wyników daje zauważalne korzyści na trudnych benchmarkach, a publiczna publikacja kodu i wag pozwala społeczności na weryfikację i dalszy rozwój.
Jednak warto pamiętać, że prywatność sygnałów nagród, zależność od automatycznych sędziów i ograniczenia testów oznaczają, iż potrzebne są dalsze niezależne oceny, zwłaszcza z udziałem ludzkich audytorów oraz w scenariuszach multimodalnych i długiego kontekstu.
Repozytorium projektu, karta modelu na Hugging Face oraz dokumentacja zawierają konkursowe szczegóły metryk, ustawień treningowych i instrukcje uruchomienia. Dla zespołów badawczych i inżynierskich jest to solidny punkt wyjścia do eksperymentów z agentami badawczymi opartymi na RL z feedbackiem modelowym.
