LLMR & DRozumowanie

Hermes 4: Nowa generacja otwartych modeli AI z hybrydowym rozumowaniem od Nous Research

Nous Research wprowadza na rynek Hermes 4, serię modeli AI o otwartej architekturze (warianty 14B, 70B i 405B parametrów oparte na Llama 3.1), które demonstrują wysoki poziom możliwości dzięki zastosowaniu zaawansowanych technik post-treningowych. Hermes 4 wprowadza koncepcję hybrydowego rozumowania, umożliwiając modelom przełączanie się między standardowymi odpowiedziami a bardziej rozbudowanym procesem myślowym, oznaczonym tagami <think>…</think>, co jest szczególnie przydatne przy rozwiązywaniu skomplikowanych problemów.

Istotą Hermes 4 jest osiągnięcie najwyższej wydajności wśród modeli open-weight, przy jednoczesnym zachowaniu pełnej transparentności i neutralnego podejścia do dopasowania. To dowodzi, że zaawansowane zdolności rozumowania mogą być rozwijane wyłącznie w oparciu o metodologie open-source.

DataForge: Generowanie syntetycznych danych oparte na grafach

Sercem struktury Hermes 4 jest DataForge, rewolucyjny system generowania syntetycznych danych oparty na grafach, który zmienia sposób tworzenia danych treningowych. W przeciwieństwie do tradycyjnych metod, DataForge działa poprzez skierowany graf acykliczny (DAG), gdzie każdy węzeł implementuje interfejs akcji PDDL (Planning Domain Definition Language).

Każdy węzeł specyfikuje warunki wstępne, warunki końcowe i transformacje, co umożliwia automatyczne tworzenie złożonych potoków danych. Wykorzystując dane z DCLM i FineWeb jako dane początkowe, system jest w stanie przekształcić artykuł z Wikipedii w utwór rap, a następnie na podstawie tej transformacji wygenerować pary instrukcja-odpowiedź.

W ten sposób generowane jest około 5 milionów próbek, zawierających łącznie 19 miliardów tokenów. Próbki związane z rozumowaniem są celowo bardziej obszerne, średnio pięciokrotnie większe od próbek bez rozumowania, aby pomieścić ślady myślowe o długości do 16 000 tokenów.

Selekcja odrzucająca na niespotykaną skalę

Hermes 4 wykorzystuje Atropos, środowisko uczenia się ze wzmocnieniem open-source od Nous Research, do implementacji selekcji odrzucającej w oparciu o około 1000 różnych weryfikatorów specyficznych dla zadań. Ta rozbudowana infrastruktura weryfikacji filtruje trajektorie rozumowania wysokiej jakości w różnych domenach.

Kluczowe środowiska weryfikacji obejmują Answer Format Training (nagradzanie poprawnego formatowania w ponad 150 formatach wyjściowych), Instruction Following (wykorzystanie zadań RLVR-IFEval ze złożonymi ograniczeniami), Schema Adherence (dla generowania JSON przy użyciu modeli Pydantic) oraz Tool Use training dla zachowań agentowych.

Proces selekcji odrzucającej tworzy obszerny korpus zweryfikowanych trajektorii rozumowania, z wieloma unikalnymi ścieżkami rozwiązań prowadzącymi do tego samego zweryfikowanego wyniku. Takie podejście zapewnia, że model uczy się solidnych wzorców rozumowania, zamiast zapamiętywać konkretne szablony rozwiązań.

Kontrola długości: Rozwiązanie problemu zbyt długiego generowania

Jednym z najbardziej innowacyjnych rozwiązań w Hermes 4 jest podejście do problemu zbyt długiego rozumowania, gdzie modele generują nadmiernie długie ciągi myślowe, które nie kończą się. Zespół badawczy odkrył, że ich model 14B osiągał maksymalną długość kontekstu w 60% przypadków na LiveCodeBench podczas pracy w trybie rozumowania.

Ich skuteczne rozwiązanie polega na drugim etapie nadzorowanego dostrajania, który uczy modele zatrzymywana rozumowania dokładnie na 30 000 tokenów:

  1. Generowanie śladów rozumowania z bieżącej polityki
  2. Wstawianie tokenów </think> dokładnie na 30 000 tokenów
  3. Trenowanie tylko na decyzji o zakończeniu, a nie na łańcuchu rozumowania
  4. Stosowanie aktualizacji gradientu wyłącznie do tokenów </think> i <eos>

Takie podejście przynosi zauważalne rezultaty: redukcja zbyt długiego generowania o 78,4% na AIME’24, 65,3% na AIME’25 i 79,8% na LiveCodeBench, przy koszcie względnej dokładności wynoszącym zaledwie od 4,7% do 12,7%. Koncentrując sygnały uczenia się wyłącznie na decyzji o zakończeniu, metoda unika ryzyka załamania się modelu, jednocześnie ucząc efektywnego „zachowania zliczającego”.

Wydajność testów porównawczych i neutralne dopasowanie

Hermes 4 demonstruje najwyższą wydajność wśród modeli z otwartymi wagami. Model 405B osiąga 96,3% na MATH-500 (w trybie rozumowania), 81,9% na AIME’24, 78,1% na AIME’25, 70,5% na GPQA Diamond i 61,3% na LiveCodeBench.

Szczególnie godna uwagi jest jego wydajność na RefusalBench, gdzie osiąga 57,1% w trybie rozumowania – najwyższy wynik spośród ocenianych modeli, znacznie przewyższający GPT-4o (17,67%) i Claude Sonnet 4 (17%). Świadczy to o gotowości modelu do angażowania się w kontrowersyjne tematy przy jednoczesnym zachowaniu odpowiednich granic, co odzwierciedla filozofię neutralnego dopasowania Nous Research.

Architektura techniczna i trening

Trening Hermes 4 opiera się na zmodyfikowanym TorchTitan na 192 GPU NVIDIA B200. System radzi sobie z wysoce heterogeniczną dystrybucją długości próbek poprzez efektywne pakowanie (osiągając >99,9% wydajności wsadowej), flex attention i zaawansowane maskowanie strat, gdzie tylko tokeny roli asystenta przyczyniają się do straty entropii krzyżowej.

Trening przebiega zgodnie z harmonogramem współczynnika uczenia się cosinusa z 300 krokami rozgrzewki i 9 000 kroków całkowitych przy długości kontekstu 16 384 tokenów przy globalnej wielkości wsadu 384 próbek, łącząc Data Parallelism, Tensor Parallelism i Fully Sharded Data Parallelism.

Podsumowanie

Hermes 4 stanowi znaczący postęp w rozwoju AI open-source, dowodząc, że możliwości rozumowania na poziomie high-end mogą być osiągnięte dzięki transparentnym, powtarzalnym metodologiom, bez polegania na zastrzeżonych danych treningowych lub zamkniętych procesach rozwoju. Łącząc innowacyjne generowanie syntetycznych danych oparte na grafach, selekcję odrzucającą na masową skalę i eleganckie mechanizmy kontroli długości, Nous Research stworzył modele, które nie tylko dorównują wydajnością wiodącym systemom komercyjnym, ale także zachowują neutralne dopasowanie i sterowność, co czyni je prawdziwie użytecznymi narzędziami, a nie restrykcyjnymi asystentami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *