Agenci AILLMOpen Source

Alibaba otwiera kod modelu Tongyi DeepResearch: 30B parametrów dla zaawansowanych badań

Alibaba udostępniła Tongyi DeepResearch-30B-A3B, agentowy model językowy (LLM) z 30 miliardami parametrów, zaprojektowany do prowadzenia zaawansowanych i długoterminowych badań z wykorzystaniem narzędzi internetowych. Model ten, oparty na architekturze Mixture-of-Experts (MoE), aktywuje jedynie około 3 miliardy parametrów na token, co zapewnia wysoką przepustowość przy zachowaniu jakości wnioskowania.

Tongyi DeepResearch celuje w wieloetapowe procesy badawcze, obejmujące wyszukiwanie, przeglądanie, ekstrakcję, weryfikację i syntezę danych. Wykorzystuje narzędzia w stylu ReAct i skalowalny tryb testowy. Wraz z modelem udostępniono wagi (na licencji Apache-2.0), skrypty wnioskowania i narzędzia ewaluacyjne.

Benchmarki i możliwości

Tongyi DeepResearch osiąga bardzo dobre wyniki w testach agentowego wyszukiwania, w tym: Humanity’s Last Exam (HLE): 32.9, BrowseComp: 43.4 (EN) i 46.7 (ZH), xbench-DeepSearch: 75. Dobre rezultaty odnotowano również w WebWalkerQA, GAIA, FRAMES i SimpleQA. Zespół twórców twierdzi, że system dorównuje agentom badawczym od OpenAI i przewyższa inne, zarówno komercyjne, jak i open-source rozwiązania.

Architektura i wnioskowanie

Model wykorzystuje MoE routing (linia Qwen3-MoE) z około 30.5 miliarda parametrów, z czego aktywne jest około 3.3 miliarda. Długość kontekstu wynosi 128 tysięcy tokenów, co umożliwia długie sesje przeglądania i iteracyjnej syntezy. Dostępne są dwa tryby wnioskowania: ReAct (natywny) do oceny rozumowania i użycia narzędzi oraz IterResearch – tryb „ciężki” do skalowania testowego, z wieloetapową syntezą kontekstu redukującą szumy.

Proces uczenia

Tongyi DeepResearch jest trenowany jako agent, a nie tylko jako model językowy do czatowania. Wykorzystuje w pełni zautomatyzowany i skalowalny silnik danych: ciągłe wstępne uczenie agentowe (CPT), dane syntetyczne zbudowane z wyselekcjonowanych korpusów, historii użycia narzędzi i grafowych struktur wiedzy. Ponadto wykorzystano nadzorowane dostrajanie (SFT) w formatach ReAct i IterResearch, oraz uczenie ze wzmocnieniem (RL) z Group Relative Policy Optimization (GRPO), gradientami polityki na poziomie tokenów i filtrowaniem negatywnych próbek.

Zastosowanie w badaniach

Model ten został stworzony z myślą o zadaniach wymagających planowania długoterminowego, iteracyjnego wyszukiwania i weryfikacji źródeł, śledzenia dowodów i syntezy w szerokim kontekście. Tryb IterResearch restrukturyzuje kontekst w każdej rundzie, zachowując tylko istotne elementy, aby ograniczyć przeładowanie kontekstu i propagację błędów.

Kluczowe cechy Tongyi DeepResearch-30B-A3B

  1. Skalowalna efektywność MoE: ~30.5B parametrów, z czego ~3.0–3.3B aktywowanych na token.
  2. Okno kontekstowe 128K: długoterminowe operacje z akumulacją dowodów.
  3. Dwa tryby wnioskowania: ReAct i IterResearch.
  4. Automatyczny silnik danych agentowych: do CPT, SFT i RL.
  5. On-policy RL z GRPO.
  6. Dobre wyniki w testach deep-research.

Podsumowanie

Tongyi DeepResearch-30B-A3B łączy architekturę MoE (~30B parametrów, ~3B aktywnych), kontekst 128K, tryby ReAct/IterResearch oraz zautomatyzowane dane agentowe i potok GRPO RL w reprodukowalny stos open-source. Ma stanowić praktyczne rozwiązanie dla zespołów pracujących nad agentami badawczymi, oferując równowagę między kosztem wnioskowania a możliwościami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *