LLMR & D

DeepSeek R1T2 Chimera: Nowa era zbierania ekspertów w modelach językowych

W obszarze sztucznej inteligencji, gdzie dominują wyśrubowane wymagania obliczeniowe, firma TNG Technology Consulting wprowadza nowatorskie rozwiązanie. Zaprezentowany DeepSeek-TNG R1T2 Chimera to model typu Assembly-of-Experts (AoE), który wyróżnia się nietypowym podejściem do optymalizacji. Zamiast tradycyjnego treningu lub długotrwałego dostrajania, TNG postawiło na fuzję istniejących, wydajnych modeli.

R1T2 Chimera powstała z połączenia trzech bazowych modeli: R1-0528, R1 i V3-0324. Integracja ta nie polega na ponownym trenowaniu, lecz na interpolacji warstw ekspertów na poziomie tensorów wag. Dzięki temu możliwe jest liniowe tworzenie nowych modeli, które dziedziczą pożądane cechy od swoich 'rodziców’. Taka metodyka pozwala znacząco ograniczyć zasoby obliczeniowe niezbędne do rozwoju i adaptacji LLM.

W praktyce R1T2 łączy eksperckie tensory z modelu R1 z podstawową architekturą V3-0324, wzbogacając je o selektywne usprawnienia z R1-0528. Celem takiego podejścia jest optymalizacja kompromisu między kosztami inferencji a jakością rozumowania. Wyniki testów benchmarkowych potwierdzają skuteczność tej strategii. R1T2 jest ponad 20% szybszy niż R1 i ponad dwukrotnie szybszy niż R1-0528. Poprawa wydajności wynika głównie ze zredukowanej długości generowanych tokenów oraz z precyzyjnej integracji tensorów eksperckich.

Choć R1T2 nieznacznie ustępuje surowej inteligencji modelu R1-0528, przewyższa model R1 w kluczowych benchmarkach wysokiego poziomu, takich jak GPQA Diamond i AIME-2024/2025. Co istotne, model zachowuje ścieżki rozumowania (tzw. reasoning traces) – cechę, która ujawnia się tylko, gdy udział R1 w fuzji przekroczy pewien próg. Ta spójność behawioralna jest kluczowa dla zastosowań wymagających rozumowania krok po kroku, opartego na łańcuchu myślowym (chain-of-thought reasoning).

Interesującym odkryciem towarzyszącym rozwojowi R1T2 jest potwierdzenie tezy, że łączenie modeli może generować użyteczne rozwiązania w całym zakresie przestrzeni interpolacji. Właściwości inteligencji zmieniają się stopniowo, jednak niektóre markery behawioralne, jak np. spójne użycie konkretnych wzorców, pojawiają się nagle, gdy waga R1 zbliży się do 50%. Sugeruje to, że pewne cechy leżą w odrębnych podprzestrzeniach krajobrazu wagowego LLM.

Projektanci R1T2 skupili się na łączeniu jedynie routowanych tensorów ekspertów, pozostawiając uwagę (attention) i współdzielone MLPs (Multi-Layer Perceptrons) z V3-0324. Dzięki temu model utrzymuje wysoki wynik w zakresie rozumowania, jednocześnie unikając zbyt obszernego generowania tekstu. TNG określa to jako „spójność myśleniowo-tokenową” (think-token consistency), gdzie rozumowanie jest nie tylko precyzyjne, ale również zwięzłe.

Pierwsze reakcje społeczności Reddit LocalLLaMA na R1T2 są pozytywne. Użytkownicy chwalą responsywność modelu, efektywność tokenową oraz równowagę między szybkością a spójnością. Komentarze takie jak: „To pierwszy raz, kiedy model Chimera wydaje się prawdziwym ulepszeniem zarówno pod względem szybkości, jak i jakości” czy obserwacje dotyczące lepszej wydajności w kontekstach matematycznych, podkreślają praktyczną użyteczność nowego rozwiązania.

Dodatkowo, niektórzy użytkownicy zauważyli, że R1T2 wykazuje bardziej „uziemioną” osobowość, konsekwentniej unikając halucynacji niż modele oparte na R1 czy V3. Takie emergentne cechy mają kluczowe znaczenie dla deweloperów poszukujących stabilnych zapleczy LLM do środowisk produkcyjnych.

DeepSeek-TNG R1T2 Chimera jest dostępny publicznie na Hugging Face na licencji MIT, co zachęca do eksperymentowania i dalszego dostrajania. Według TNG, wewnętrzne wdrożenia modelu przetwarzają już blisko 5 miliardów tokenów dziennie za pośrednictwem platformy wnioskowania serwerowego Chutes.

Premiera R1T2 Chimera podkreśla potencjał konstrukcji Assembly-of-Experts w tworzeniu wydajnych i efektywnych LLM bez konieczności intensywnego trenowania gradientowego. Strategicznie łącząc zdolności rozumowania R1, wydajność tokenową V3-0324 oraz usprawnienia z R1-0528, R1T2 wyznacza nowy standard w projektowaniu zrównoważonych modeli. Dostępność Open-Weight na licencji MIT czyni go atrakcyjnym narzędziem dla deweloperów poszukujących szybkich, zdolnych i konfigurowalnych dużych modeli językowych.

Fakt, że łączenie modeli okazało się wykonalne nawet na tak dużą skalę (671 miliardów parametrów), sugeruje, że R1T2 autorstwa TNG może stać się wzorem dla przyszłych eksperymentów z interpolacją przestrzeni parametrów. Otwiera to drogę do bardziej modułowego i interpretowalnego rozwoju LLM przyszłości.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *