LLMRozumowanie

Falcon-H1R-7B: Przełom w rozumowaniu modeli językowych o kompaktowej budowie

W sektorze sztucznej inteligencji, gdzie dominują modele o setkach miliardów parametrów, Technology Innovation Institute (TII) z Abu Zabi dokonał znaczącego postępu. Ich najnowsze dzieło, Falcon-H1R-7B, to 7-miliardowy model językowy wyspecjalizowany w rozumowaniu, który swoją wydajnością zaskakuje, dorównując, a często przewyższając, modele o parametrach od 14 do 47 miliardów w kluczowych obszarach, takich jak matematyka, kodowanie i ogólne testy porównawcze.

Kluczem do sukcesu Falcon-H1R-7B jest innowacyjne połączenie trzech strategicznych rozwiązań projektowych. Model wykorzystuje hybrydową architekturę Transformer z elementami Mamba2, co stanowi rewolucyjne podejście w przetwarzaniu sekwencji. Dodatkowo, model charakteryzuje się rozszerzonym oknem kontekstowym, sięgającym 256 tysięcy tokenów, co jest wartością dotychczas niespotykaną w tak kompaktowych systemach. Całość uzupełnia zaawansowana metodyka treningowa, łącząca nadzorowane uczenie się rozumowania długoformatowego z uczeniem wzmacniającym, wykorzystującym algorytm GRPO.

Architektura hybrydowa Falcon-H1R-7B łączy w sobie warstwy Transformerów, odpowiedzialne za standardowe mechanizmy uwagi i rozumowania, z blokami Mamba2, które zapewniają liniową czasową złożoność przetwarzania sekwencji i efektywniejsze skalowanie pamięci wraz ze wzrostem długości kontekstu. To połączenie ma na celu optymalizację trzech kluczowych aspektów rozumowania: szybkości, efektywności wykorzystania tokenów i dokładności.

Zdolność modelu do operowania na praktycznym oknie kontekstowym rzędu 256 tysięcy tokenów, co odpowiada domyślnej wartości --max-model-len 262144 w implementacjach vLLM, otwiera nowe możliwości. Umożliwia to przetwarzanie bardzo długich ścieżek rozumowania, logów narzędzi wieloetapowych oraz obszernych promptów zawierających wiele dokumentów w jednym przebiegu. Hybrydowa architektura, w odróżnieniu od czystych modeli Transformer o podobnej wielkości, skutecznie zarządza zużyciem pamięci przy tak długich sekwencjach i poprawia przepustowość.

Proces szkolenia Falcona-H1R-7B składa się z dwóch etapów. Pierwszy etap to nadzorowane dostrajanie (SFT) na bazie Falcon-H1-7B Base. Dane SFT obejmują szczegółowe ścieżki rozumowania w zakresie matematyki, kodowania i nauk ścisłych, a także w dziedzinach niezwiązanych z rozumowaniem, takich jak czat, wywoływanie narzędzi i bezpieczeństwo. System stosuje filtrowanie uwzględniające trudność, aby faworyzować trudniejsze problemy i redukować znaczenie tych trywialnych. Modele są w stanie przetwarzać cele o długości do 48 tysięcy tokenów, co wystawia model na bardzo długie derywacje i pełne ścieżki rozwiązań już na etapie treningu.

W drugim etapie wykorzystuje się GRPO (Group Relative Policy Optimization) – metodę optymalizacji polityki względnej grupy dla uczenia wzmacniającego. Nagrody są przyznawane, gdy wygenerowany łańcuch rozumowania jest możliwy do zweryfikowania. Dla problemów matematycznych system stosuje symboliczne sprawdzanie końcowej odpowiedzi, natomiast dla kodu wykonuje generowany program na testach jednostkowych. Ten etap uczenia wzmacniającego zmusza model do utrzymywania użytecznych kroków pośrednich, jednocześnie pozostając w ramach ustalonego budżetu tokenów.

Wyniki benchmarków

Falcon-H1R-7B wykazuje imponujące wyniki w testach porównawczych. W grupie zadań matematycznych osiągnął łączny wynik 73,96%, wyprzedzając Apriel-1.5-15B (69,32%) oraz większe modele, takie jak Qwen3-32B i Nemotron-H-47B. Na indywidualnych benchmarkach, takich jak AIME 24 (88,1%) i AIME 25 (83,1%), również przewyższył Apriel-1.5-15B. W teście HMMT 25 (64,9%) deklasował wszystkie wymienione punkty odniesienia, a w AMO Bench osiągnął 36,3%, w porównaniu do 23,3% dla DeepSeek-R1-0528 Qwen3-8B.

W zadaniach związanych z kodowaniem i agentyką, model uzyskał wynik grupowy 33,95%. Na platformie LiveCodeBench v6, Falcon-H1R-7B osiągnął 68,6%, co jest wynikiem lepszym niż Qwen3-32B i inne modele bazowe. Uzyskał również 28,3% w podproblemach SciCode i 4,9% w Terminal Bench Hard, zajmując drugie miejsce za Apriel 1.5-15B, ale wyprzedzając wiele systemów 8B i 32B.

W ogólnych zadaniach rozumowania, Falcon-H1R-7B osiągnął wynik grupowy 49,48%. Zanotował 61,3% w GPQA D, zbliżając się do innych modeli 8B, oraz 72,1% w MMLU Pro, wyprzedzając wszystkie inne modele 8B w tabeli. Na testach HLE i IFBench, gdzie zajął drugie miejsce za Apriel 1.5-15B, osiągnął odpowiednio 11,1% i 53,4%.

Jest to jasny sygnał, że model o zaledwie 7 miliardach parametrów może osiągnąć wydajność porównywalną z modelami 14B do 47B, pod warunkiem optymalizacji architektury i procesu treningowego pod kątem zadań rozumowania.

Wydajność i skalowanie

Zespół TII przeprowadził również testy przepustowości i skalowania czasu wnioskowania dla Falcon-H1R-7B w realistycznych scenariuszach. Dla danych wejściowych o rozmiarze 512 tokenów i wyjściowych 32 tysięcy tokenów, model osiąga około 1000 tokenów na sekundę na GPU przy rozmiarze partii 32, i około 1500 tokenów na sekundę na GPU przy rozmiarze partii 64. To niemal dwukrotnie większa przepustowość niż Qwen3-8B w tej samej konfiguracji. Przy danych wejściowych 8 tysięcy tokenów i wyjściowych 16 tysięcy tokenów, Falcon-H1R-7B osiąga około 1800 tokenów na sekundę na GPU, podczas gdy Qwen3-8B pozostaje poniżej 900. Kluczowym czynnikiem tego skalowania jest hybrydowa architektura Transformer-Mamba, która redukuje kwadratowy koszt mechanizmu uwagi dla długich sekwencji.

Falcon-H1R-7B został również zaprojektowany ze skalowaniem czasu testowego z wykorzystaniem Deep Think with Confidence (DeepConf). Metoda ta polega na równoległym uruchamianiu wielu łańcuchów rozumowania, a następnie wykorzystywaniu wskaźników pewności następczych tokenów modelu do filtrowania szumnych ścieżek i zachowywania tylko tych wysokojakościowych.

W testach AIME 24 i AIME 25, Falcon-H1R-7B osiągnął 96,7% dokładności, zużywając mniej niż 100 milionów wygenerowanych tokenów. To stawia go w korzystnej pozycji na pareto-frontcie dokładności w stosunku do kosztów tokenów w porównaniu do innych modeli rozumowania 8B, 14B i 32B. W podzbiorze AMO Bench weryfikowalnym przez parser, osiągnął 35,9% dokładności przy 217 milionach tokenów, ponownie przewyższając porównywane modele o podobnej lub większej skali.