ParaThinker: Nowy paradygmat w skalowaniu modeli językowych – równoległe myślenie kluczem do sukcesu?
W świecie sztucznej inteligencji, skalowanie modeli językowych (LLM) to nieustanne wyzwanie. Tradycyjne metody, polegające na wydłużaniu pojedynczych ścieżek rozumowania, szybko natrafiają na bariery. Badacze z Tsinghua University proponują rewolucyjne podejście – ParaThinker, framework, który uczy modele generowania wielu, różnorodnych ścieżek rozumowania równolegle, a następnie łączy je w spójną i precyzyjną odpowiedź.
Koniec „wizji tunelowej”?
Eksperymenty z modelem DeepSeek-R1-distill-Qwen-1.5B pokazały, że zwiększanie budżetu tokenów powyżej 32K (aż do 128K) przynosi znikome korzyści w zakresie dokładności. Dlaczego? Problemem jest „wizja tunelowa” – wczesne błędy w łańcuchu myślowym, które propagują się, uniemożliwiając modelowi wyjście poza utarty schemat. ParaThinker ma być odpowiedzią na to ograniczenie.
Jak działa ParaThinker? Równoległe myślenie w praktyce
Kluczem do sukcesu ParaThinker jest równoległe generowanie wielu trajektorii rozumowania i łączenie ich w końcową odpowiedź. Architektura frameworku obejmuje:
- Specjalne tokeny kontrolne (<think i>), inicjujące różne ścieżki rozumowania.
- Specyficzne dla danej ścieżki osadzenia pozycyjne, zapobiegające kolapsowi podczas syntezy.
- Dwufazowe maski uwagi, wymuszające niezależność ścieżek podczas rozumowania i kontrolowaną integrację podczas generowania odpowiedzi.
Istotnym elementem jest ponowne wykorzystanie pamięci podręcznej KV z etapu rozumowania w fazie podsumowania, co eliminuje zbędne, ponowne przetwarzanie.
Trening równoległego myślenia
Model ParaThinker jest trenowany poprzez nadzorowane dostrajanie (SFT) z wykorzystaniem zbiorów danych zawierających wielościeżkowe rozumowanie. Dane treningowe generowane są poprzez próbkowanie wielu ścieżek rozwiązania z modeli nauczycielskich (DeepSeek-R1, GPT-OSS-20B). Każdy przykład zawiera kilka trajektorii <think i> i ostateczne rozwiązanie <summary>. Do uczenia wykorzystano modele Qwen-2.5 (1.5B i 7B parametrów) z maksymalną długością kontekstu 28K tokenów.
Wyniki eksperymentalne – imponujący wzrost dokładności
Ocena na zbiorach danych AIME 2024, AIME 2025, AMC 2023 i MATH-500 przyniosła obiecujące rezultaty:
- ParaThinker-1.5B osiągnął o 12.3% wyższą dokładność niż sekwencyjne modele bazowe i o 4.3% wyższą niż głosowanie większościowe.
- ParaThinker-7B osiągnął o 7.5% wyższą dokładność niż sekwencyjne modele i o 2.0% wyższą niż głosowanie większościowe.
- Z 8 ścieżkami rozumowania, ParaThinker-1.5B osiągnął 63.2% pass@1, przewyższając sekwencyjne modele 7B przy porównywalnym budżecie obliczeniowym.
Co więcej, narzut opóźnienia związany z równoległym rozumowaniem wynosił średnio zaledwie 7.1%, a generowanie 16 ścieżek było mniej niż 2 razy wolniejsze niż generowanie pojedynczej ścieżki.
ParaThinker kontra konkurencja
W przeciwieństwie do konwencjonalnych strategii równoległych, takich jak głosowanie większościowe czy Tree of Thoughts, ParaThinker nie wymaga zewnętrznych weryfikatorów ani selekcji post-hoc. W odróżnieniu od metod wymagających zmian w architekturze modelu, ParaThinker zachowuje rdzeń Transformer i wprowadza równoległość na etapie rozumowania.
ParaThinker udowadnia, że wąskie gardła skalowania w czasie testowania są artefaktem sekwencyjnych strategii rozumowania. Dzięki alokacji zasobów obliczeniowych na szerokość (równoległe trajektorie), a nie na głębokość (dłuższe łańcuchy), mniejsze modele mogą przewyższyć znacznie większe modele bazowe przy minimalnym wzroście opóźnień. Czy równoległe myślenie stanie się kluczowym elementem przyszłego skalowania LLM?
