Spleciona sieć neuronowa w lesie bambusowym, symbolizująca badania AI Alibaba Tongyi DeepResearch.

Alibaba otwiera kod modelu Tongyi DeepResearch: 30B parametrów dla zaawansowanych badań

2025-09-19 AI Sight

Alibaba udostępniła Tongyi DeepResearch-30B-A3B, agentowy model językowy (LLM) z 30 miliardami parametrów, zaprojektowany do prowadzenia zaawansowanych i długoterminowych badań z wykorzystaniem narzędzi internetowych. Model ten, oparty na architekturze Mixture-of-Experts (MoE), aktywuje jedynie około 3 miliardy parametrów na token, co zapewnia wysoką przepustowość przy zachowaniu jakości wnioskowania.

Tongyi DeepResearch celuje w wieloetapowe procesy badawcze, obejmujące wyszukiwanie, przeglądanie, ekstrakcję, weryfikację i syntezę danych. Wykorzystuje narzędzia w stylu ReAct i skalowalny tryb testowy. Wraz z modelem udostępniono wagi (na licencji Apache-2.0), skrypty wnioskowania i narzędzia ewaluacyjne.

Benchmarki i możliwości

Tongyi DeepResearch osiąga bardzo dobre wyniki w testach agentowego wyszukiwania, w tym: Humanity’s Last Exam (HLE): 32.9, BrowseComp: 43.4 (EN) i 46.7 (ZH), xbench-DeepSearch: 75. Dobre rezultaty odnotowano również w WebWalkerQA, GAIA, FRAMES i SimpleQA. Zespół twórców twierdzi, że system dorównuje agentom badawczym od OpenAI i przewyższa inne, zarówno komercyjne, jak i open-source rozwiązania.

Architektura i wnioskowanie

Model wykorzystuje MoE routing (linia Qwen3-MoE) z około 30.5 miliarda parametrów, z czego aktywne jest około 3.3 miliarda. Długość kontekstu wynosi 128 tysięcy tokenów, co umożliwia długie sesje przeglądania i iteracyjnej syntezy. Dostępne są dwa tryby wnioskowania: ReAct (natywny) do oceny rozumowania i użycia narzędzi oraz IterResearch – tryb „ciężki” do skalowania testowego, z wieloetapową syntezą kontekstu redukującą szumy.

Proces uczenia

Tongyi DeepResearch jest trenowany jako agent, a nie tylko jako model językowy do czatowania. Wykorzystuje w pełni zautomatyzowany i skalowalny silnik danych: ciągłe wstępne uczenie agentowe (CPT), dane syntetyczne zbudowane z wyselekcjonowanych korpusów, historii użycia narzędzi i grafowych struktur wiedzy. Ponadto wykorzystano nadzorowane dostrajanie (SFT) w formatach ReAct i IterResearch, oraz uczenie ze wzmocnieniem (RL) z Group Relative Policy Optimization (GRPO), gradientami polityki na poziomie tokenów i filtrowaniem negatywnych próbek.

Zastosowanie w badaniach

Model ten został stworzony z myślą o zadaniach wymagających planowania długoterminowego, iteracyjnego wyszukiwania i weryfikacji źródeł, śledzenia dowodów i syntezy w szerokim kontekście. Tryb IterResearch restrukturyzuje kontekst w każdej rundzie, zachowując tylko istotne elementy, aby ograniczyć przeładowanie kontekstu i propagację błędów.

Kluczowe cechy Tongyi DeepResearch-30B-A3B

Skalowalna efektywność MoE: ~30.5B parametrów, z czego ~3.0–3.3B aktywowanych na token.
Okno kontekstowe 128K: długoterminowe operacje z akumulacją dowodów.
Dwa tryby wnioskowania: ReAct i IterResearch.
Automatyczny silnik danych agentowych: do CPT, SFT i RL.
On-policy RL z GRPO.
Dobre wyniki w testach deep-research.

Podsumowanie

Tongyi DeepResearch-30B-A3B łączy architekturę MoE (~30B parametrów, ~3B aktywnych), kontekst 128K, tryby ReAct/IterResearch oraz zautomatyzowane dane agentowe i potok GRPO RL w reprodukowalny stos open-source. Ma stanowić praktyczne rozwiązanie dla zespołów pracujących nad agentami badawczymi, oferując równowagę między kosztem wnioskowania a możliwościami.

Benchmarki i możliwości

Architektura i wnioskowanie

Proces uczenia

Zastosowanie w badaniach

Kluczowe cechy Tongyi DeepResearch-30B-A3B

Podsumowanie

Share this:

Zobacz również

Salesforce Agentforce 3: Nowe standardy monitoringu i interoperacyjności agentów AI

Google ADK: Nowe horyzonty dla systemów multiagentowych opartych na Gemini

Czy autonomiczne AI zacznie donosić? Incydent z Claude 4 Opus wywołuje dyskusję o bezpieczeństwie i kontroli w zastosowaniach korporacyjnych

Dodaj komentarz Anuluj pisanie odpowiedzi