LLMR & DRozumowanie

Tencent udostępnia Hunyuan-A13B: nowy model MoE z „myśleniem” dwumodowym i kontekstem 256K

Wydajność w połączeniu z rozbudowanymi możliwościami rozumowania to cel, który przyświecał twórcom Hunyuan-A13B. Model ten osiąga czołowe wyniki w wiodących benchmarkach agentowych, w tym BFCL-v3, τ-Bench, C3-Bench i ComplexFuncBench. Co istotne, często przewyższa większe modele w scenariuszach zastosowań agentowych i długiego kontekstu, co stanowi znaczący krok naprzód w poszukiwaniu efektywniejszych rozwiązań.

Hunyuan-A13B opiera się na architekturze rzadkiej mieszaniny ekspertów (MoE), w której spośród 80 miliardów parametrów, tylko 13 miliardów jest aktywnych podczas inferencji. To nowatorskie podejście pozwala na zminimalizowanie zużycia zasobów obliczeniowych przy zachowaniu wysokiej wydajności. Model składa się z jednego współdzielonego eksperta i 64 ekspertów niewspółdzielonych, z czego podczas każdego przejścia do przodu aktywowane jest osiem ekspertów. Architektura ta, potwierdzona eksperymentami skalowania, gwarantuje stabilność działania i niskie koszty inferencji. Dodatkowo model wykorzystuje 32 warstwy, aktywacje SwiGLU, słownik o rozmiarze 128 tysięcy tokenów oraz GQA, co zwiększa efektywność pamięci w scenariuszach długiego kontekstu.

Trening zoptymalizowany pod kątem złożonych zadań

Proces treningowy Hunyuan-A13B został starannie zoptymalizowany. Obejmował fazę pretreningu na danych o łącznej objętości 20 bilionów tokenów, po której następowało szybkie wygaszanie harmonogramu uczenia oraz adaptacja do długiego kontekstu. W tej ostatniej fazie okno kontekstowe skalowano najpierw do 32 tysięcy, a następnie do 256 tysięcy tokenów, wykorzystując kodowanie pozycyjne dostosowane do NTK (Neural Tangent Kernel). Zapewniło to stabilną wydajność modelu przy dużych długościach sekwencji.

Dwumodowe rozumowanie: szybkość i refleksja

Kluczową innowacją w Hunyuan-A13B jest dwumodowa funkcja rozumowania typu „Chain-of-Thought” (CoT). Pozwala ona na przełączanie się między trybem „szybkiego myślenia” o niskim opóźnieniu dla rutynowych zapytań a bardziej złożonym trybem „powolnego myślenia” dla rozumowania wieloetapowego. Sterowanie tymi trybami odbywa się za pomocą prostego systemu znaczników: „/no think” dla szybkiego wnioskowania i „/think” dla rozumowania refleksyjnego. Ta elastyczność umożliwia użytkownikom dostosowanie kosztów obliczeniowych do złożoności zadania, optymalizując jednocześnie wydajność.

Proces potrenowania modelu Hunyuan-A13B obejmuje wielostopniowe, nadzorowane dostrajanie (SFT) oraz uczenie ze wzmocnieniem (RL), zarówno w zadaniach związanych z rozumowaniem, jak i w zadaniach ogólnych. Etapy RL wykorzystują nagrody oparte na wynikach oraz sprzężenie zwrotne specyficzne dla narzędzi, w tym środowiska wykonawcze sandbox dla kodu i regułowe kontrole dla agentów. W fazie treningu agentów zespół Tencentu syntetyzował ponad 20 tysięcy scenariuszy użycia narzędzi, co wzmocniło zdolność Hunyuan-A13B do wykonywania rzeczywistych zadań, takich jak przetwarzanie arkuszy kalkulacyjnych, wyszukiwanie informacji i strukturalne rozumowanie.

Wyniki benchmarków: agentowa przewaga

Hunyuan-A13B wykazuje imponujące wyniki w różnych zadaniach przetwarzania języka naturalnego. Model osiąga wyniki porównywalne lub lepsze od większych modeli gęstych i MoE w testach MATH, CMATH i GPQA. W zadaniach logicznego rozumowania (BBH: 89,1; ZebraLogic: 84,7) przewyższa Qwen3-A22B i DeepSeek R1. W kodowaniu osiąga solidne 83,9 w MBPP i 69,3 w MultiPL-E. Szczególnie wyróżnia się w zadaniach agentowych, gdzie prowadzi w BFCL-v3 (78,3) i ComplexFuncBench (61,2), potwierdzając swoje możliwości w zakresie użycia narzędzi. Zdolność do rozumienia długiego kontekstu to kolejny atut. W PengunScrolls model osiąga 87,7 punktu, ustępując jedynie Gemini 2.5 Pro. Na RULER utrzymuje wysoką wydajność (73,9) nawet przy kontekście 64K–128K, przewyższając większe modele, takie jak Qwen3-A22B i DeepSeek R1, pod względem odporności na kontekst.

Optymalizacja inferencji i dostępność

Hunyuan-A13B jest w pełni zintegrowany z popularnymi frameworkami inferencyjnymi, takimi jak vLLM, SGLang i TensorRT-LLM. Wspiera formaty precyzji, w tym W16A16, W8A8 i KV Cache FP8, wraz z funkcjami takimi jak Auto Prefix Caching i Chunk Prefill. Osiąga przepustowość do 1981,99 tokenów/sekundę przy wejściu 32-wsadowym (2048 wejścia, 14336 wyjścia), co czyni go praktycznym do zastosowań wymagających niskich opóźnień.

Hunyuan-A13B, dostępny na Hugging Face i GitHub, jest udostępniony na licencji open-source. Został zaprojektowany z myślą o efektywnych badaniach i wdrożeniach produkcyjnych, szczególnie w środowiskach wrażliwych na opóźnienia i zadaniach z długim kontekstem. Połączenie skalowalności MoE, rozumowania agentowego i otwartości sprawia, że Hunyuan-A13B stanowi konkurencyjną alternatywę dla cięższych modeli LLM, umożliwiając szersze eksperymentowanie i wdrażanie bez utraty funkcjonalności.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *