Moonshot AI prezentuje Kimi K2 Thinking: otwarty model-agent z wynikiem 44,9% w HLE
Moonshot AI wprowadza Kimi K2 Thinking — publiczny wariant modelu K2 strojony pod głębokie rozumowanie i długoterminowe użycie narzędzi. Według firmy ma on przewyższać GPT‑4.1 w precyzyjnym rozwiązywaniu problemów, a jednocześnie oferuje otwarte wagi, 256 tys. tokenów kontekstu i natywną kwantyzację INT4 dla niższych opóźnień. Cel odbiorcy jest jasny: zespoły budujące agentów, którzy planują, przeglądają sieć, kodują i piszą w wielu krokach bez nadzoru człowieka.
K2 Thinking i „myśląca” orkiestracja narzędzi
Rdzeń nowości to sposób prowadzenia rozumowania: model przeplata łańcuch rozumowania z wywołaniami funkcji i udostępnia osobny strumień „thinking” do wglądu w proces decyzyjny. W praktyce K2 Thinking utrzymuje cel zadania przez 200–300 sekwencyjnych wywołań narzędzi. Obsługa narzędzi bazuje na standardowych schematach function calling, więc pełne przepływy można uruchamiać end‑to‑end. Zalecana temperatura to 1,0.
Warto zauważyć, że czat na kimi.com używa obecnie okrojonego zestawu narzędzi, więc zachowanie w produkcyjnych rozmowach może różnić się od uruchomień benchmarkowych. Dostęp zapewniono zarówno przez otwarte wagi, jak i przez API platformy.
Architektura i parametry
K2 pozostaje modelem typu MoE o łącznej skali ok. 1 biliona parametrów, z aktywowanymi 32 mld na krok. Specyfikacja obejmuje 384 ekspertów, 64 głowice uwagi, uwagę MLA oraz słownik 160 tys. tokenów. Okno kontekstu wynosi 256k, co ma znaczenie przy długich zadaniach agentowych i pracy z obszernymi dokumentami.
Moonshot AI podkreśla natywną kwantyzację INT4 realizowaną przez QAT, która ma dawać blisko dwukrotne przyspieszenie bez istotnych strat jakości. To istotne, jeśli mówimy o agentach wykonujących długie łańcuchy akcji i częste wywołania narzędzi.
Wyniki na benchmarkach: mocne liczby, kilka zastrzeżeń
Firma raportuje 44,9% w HLE (z narzędziami), 60,2% w BrowseComp oraz 71,3% w SWE‑bench Verified (z narzędziami). Na zadaniach matematycznych i programistycznych podaje m.in. 99,1 na AIME25 z Pythonem, 83,1 na LiveCodeBench v6 oraz 61,1 na SWE‑bench Multilingual (z narzędziami). To solidny zestaw wyników w obszarach rozumowania, wyszukiwania agentowego i kodowania.
Warto jednak podkreślić kontekst: wiele metryk dotyczy trybu z narzędziami i długich przebiegów, które nie zawsze pokrywają się z doświadczeniem użytkownika w czacie (gdzie narzędzia są ograniczone). Porównania z GPT‑4.1 odnoszą się do wybranych testów; różnice w konfiguracji, zestawach narzędzi czy restrykcjach środowiska potrafią wpływać na rezultat. Deklaracje SOTA należy więc czytać wraz z opisem protokołów testowych.
K2 Thinking kontra K2‑Instruct
W porównaniu z K2‑Instruct — określanym jako „reflex‑grade”, czyli bez długiej deliberacji — K2 Thinking dodaje celową, wieloetapową strategię rozumowania oraz zdolność do podtrzymywania planu w długim horyzoncie. W praktyce to przeskok z reaktywnego modelu czatowego do agenta potrafiącego planować i egzekwować złożone zadania.
Droga do agentów: dane, optymalizacja i RL
Rodzina K2 była wstępnie trenowana na 15,5 bln tokenów. Moonshot AI wskazuje na własny optymalizator MuonClip z poprawką stabilności QK‑clip. Etap post‑treningu łączy szeroką syntezę trajektorii agentowych z komponentami uczenia ze wzmocnieniem. Zapowiedziano też „pełny” tryb agenta na kimi.com, który ma zostać uruchomiony wkrótce.
Otwarte wagi ułatwiają audyt i wdrażanie na własnej infrastrukturze, choć firma nie precyzuje tu kwestii licencji czy zakresu otwartości danych treningowych. Ambicja jest jasna: dostarczyć budowniczym agentów transparentne rozumowanie i stabilną orkiestrację narzędzi w skali.
