LLMR & D

ParaThinker: Nowy paradygmat w skalowaniu modeli językowych – równoległe myślenie kluczem do sukcesu?

W świecie sztucznej inteligencji, skalowanie modeli językowych (LLM) to nieustanne wyzwanie. Tradycyjne metody, polegające na wydłużaniu pojedynczych ścieżek rozumowania, szybko natrafiają na bariery. Badacze z Tsinghua University proponują rewolucyjne podejście – ParaThinker, framework, który uczy modele generowania wielu, różnorodnych ścieżek rozumowania równolegle, a następnie łączy je w spójną i precyzyjną odpowiedź.

Koniec „wizji tunelowej”?

Eksperymenty z modelem DeepSeek-R1-distill-Qwen-1.5B pokazały, że zwiększanie budżetu tokenów powyżej 32K (aż do 128K) przynosi znikome korzyści w zakresie dokładności. Dlaczego? Problemem jest „wizja tunelowa” – wczesne błędy w łańcuchu myślowym, które propagują się, uniemożliwiając modelowi wyjście poza utarty schemat. ParaThinker ma być odpowiedzią na to ograniczenie.

Jak działa ParaThinker? Równoległe myślenie w praktyce

Kluczem do sukcesu ParaThinker jest równoległe generowanie wielu trajektorii rozumowania i łączenie ich w końcową odpowiedź. Architektura frameworku obejmuje:

  • Specjalne tokeny kontrolne (<think i>), inicjujące różne ścieżki rozumowania.
  • Specyficzne dla danej ścieżki osadzenia pozycyjne, zapobiegające kolapsowi podczas syntezy.
  • Dwufazowe maski uwagi, wymuszające niezależność ścieżek podczas rozumowania i kontrolowaną integrację podczas generowania odpowiedzi.

Istotnym elementem jest ponowne wykorzystanie pamięci podręcznej KV z etapu rozumowania w fazie podsumowania, co eliminuje zbędne, ponowne przetwarzanie.

Trening równoległego myślenia

Model ParaThinker jest trenowany poprzez nadzorowane dostrajanie (SFT) z wykorzystaniem zbiorów danych zawierających wielościeżkowe rozumowanie. Dane treningowe generowane są poprzez próbkowanie wielu ścieżek rozwiązania z modeli nauczycielskich (DeepSeek-R1, GPT-OSS-20B). Każdy przykład zawiera kilka trajektorii <think i> i ostateczne rozwiązanie <summary>. Do uczenia wykorzystano modele Qwen-2.5 (1.5B i 7B parametrów) z maksymalną długością kontekstu 28K tokenów.

Wyniki eksperymentalne – imponujący wzrost dokładności

Ocena na zbiorach danych AIME 2024, AIME 2025, AMC 2023 i MATH-500 przyniosła obiecujące rezultaty:

  • ParaThinker-1.5B osiągnął o 12.3% wyższą dokładność niż sekwencyjne modele bazowe i o 4.3% wyższą niż głosowanie większościowe.
  • ParaThinker-7B osiągnął o 7.5% wyższą dokładność niż sekwencyjne modele i o 2.0% wyższą niż głosowanie większościowe.
  • Z 8 ścieżkami rozumowania, ParaThinker-1.5B osiągnął 63.2% pass@1, przewyższając sekwencyjne modele 7B przy porównywalnym budżecie obliczeniowym.

Co więcej, narzut opóźnienia związany z równoległym rozumowaniem wynosił średnio zaledwie 7.1%, a generowanie 16 ścieżek było mniej niż 2 razy wolniejsze niż generowanie pojedynczej ścieżki.

ParaThinker kontra konkurencja

W przeciwieństwie do konwencjonalnych strategii równoległych, takich jak głosowanie większościowe czy Tree of Thoughts, ParaThinker nie wymaga zewnętrznych weryfikatorów ani selekcji post-hoc. W odróżnieniu od metod wymagających zmian w architekturze modelu, ParaThinker zachowuje rdzeń Transformer i wprowadza równoległość na etapie rozumowania.

ParaThinker udowadnia, że wąskie gardła skalowania w czasie testowania są artefaktem sekwencyjnych strategii rozumowania. Dzięki alokacji zasobów obliczeniowych na szerokość (równoległe trajektorie), a nie na głębokość (dłuższe łańcuchy), mniejsze modele mogą przewyższyć znacznie większe modele bazowe przy minimalnym wzroście opóźnień. Czy równoległe myślenie stanie się kluczowym elementem przyszłego skalowania LLM?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *