LLMR & DRozumowanie

Fractional Reasoning: Przełomowa metoda adaptacyjnego wnioskowania w dużych modelach językowych

Duże modele językowe (LLM), choć imponujące w swoich możliwościach, borykają się z wyzwaniem jednorodnego stosowania zasobów obliczeniowych podczas wnioskowania. Niezależnie od stopnia trudności czy specyfiki zapytania, wiele obecnych strategii test-time compute traktuje wszystkie problemy tak samo, aplikując ten sam poziom złożoności wnioskowania. To z kolei prowadzi do nadmiernego zużycia zasobów w przypadku prostych zadań lub niewystarczającego pogłębiania analizy przy bardziej skomplikowanych problemach. Konsekwencją jest obniżona jakość odpowiedzi lub niepotrzebnie wysokie koszty operacyjne.

Odpowiedzią na te bolączki jest Fractional Reasoning (FR), framework opracowany przez naukowców ze Stanford University. FR to niezależny od konkretnego modelu, nie wymagający dodatkowego treningu system, który rewolucjonizuje sposób, w jaki LLM mogą adaptować swoją głębokość wnioskowania. Kluczowym elementem FR jest zdolność do bezpośredniej modyfikacji wewnętrznych reprezentacji modelu. Wykorzystuje on latentne przesunięcie, indukowane przez podpowiedzi promujące szczegółowe wnioskowanie, takie jak techniki Chain-of-Thought (CoT) czy refleksyjne. To przesunięcie jest następnie aplikowane z regulowanym współczynnikiem skalowania, co pozwala modelom dynamicznie dostosowywać głębokość wnioskowania bez konieczności modyfikacji tekstu wejściowego czy ponownego strojenia.

Dlaczego to podejście jest istotne?

Istniejące metody, takie jak CoT, usprawniają zdolność modeli do dekompozycji złożonych problemów na pośrednie kroki. Systemy takie jak Outcome Reward Models (ORMs) czy Process Reward Models (PRMs) oceniają jakość generowanych odpowiedzi. Co więcej, inżynieria reprezentacji wykorzystuje wektory sterujące w latentnych przestrzeniach LLM do kontroli generacji. Jednak żadna z nich nie oferuje tak elastycznego i dynamicznego sterowania głębokością rozumowania jak FR.

FR wspiera i usprawnia dwie kluczowe formy skalowania w czasie wnioskowania: skalowanie oparte na szerokości (ang. breadth-based scaling), w tym metody Best-of-N i Majority Vote, oraz skalowanie oparte na głębokości (ang. depth-based scaling), takie jak auto-refleksja.

Wyniki ponad standard

Efektywność FR została zweryfikowana na trzech benchmarkach wymagających wieloetapowego wnioskowania: GSM8K, MATH500 i GPQA. Do eksperymentów wykorzystano dwa wiodące otwarte modele typu instruction-tuned: Qwen2.5-7B-Instruct oraz LLaMA-3.1-8B-Instruct. W każdym przypadku FR konsekwentnie przewyższało standardowe metody obliczeniowe, demonstrując znaczący wzrost wydajności. Regulacja wpływu podpowiedzi umożliwia szerszą eksplorację przestrzeni rozwiązań, zwiększając efektywność tradycyjnych metod wnioskowania.

Dalsze analizy wykazały, że zwiększanie parametru skalowania w FR prowadzi do dłuższych i bardziej szczegółowych wyjść, co potwierdza przewidywalne i ciągłe sterowanie zachowaniem modelu. Co ważne, FR pozostaje skuteczne nawet w przypadku specjalizowanych modeli rozumowania, takich jak DeepSeek-R1-Distill-Qwen-7B, poprawiając dokładność w porównaniu ze standardowymi bazowymi metodami generowania podpowiedzi. To świadczy o jego uniwersalności. Analiza skalowania wydajności również pokazuje stałe ulepszenia wraz ze wzrostem liczby generacji, a FR wykazuje wyższą dokładność w większości budżetów próbkowania w porównaniu z baseline’em głosowania większościowego.

Wprowadzenie Fractional Reasoning to krok w kierunku bardziej dynamicznego i efektywnego wnioskowania w LLM. Metoda ta oferuje ogólne i interpretowalne podejście do precyzyjniejszego i wydajniejszego alokowania wysiłku obliczeniowego, co jest kluczowe dla przezwyciężenia ograniczeń jednorodnego stosowania zasobów obserwowanego w obecnych strategiach. Choć FR zależy obecnie od predefiniowanych kierunków wnioskowania i nie posiada automatycznego wyboru współczynników skalowania, stanowi solidną podstawę dla przyszłych badań nad adaptacyjnymi politykami, prowadzącymi do w pełni dynamicznego wnioskowania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *