LLM

Microsoft przedstawia Phi-4-mini-Flash-Reasoning: Przełom w efektywnym rozumowaniu długokontekstowym

Sektor sztucznej inteligencji kontynuuje intensywny rozwój, a Microsoft ponownie zaznacza swoją obecność, wprowadzając Phi-4-mini-Flash-Reasoning. Jest to otwarty, ważący zaledwie 3,8 miliarda parametrów model językowy, który stanowi destylowaną wersję Phi-4-mini. Jego kluczową cechą jest zoptymalizowanie pod kątem zadań wymagających gęstego rozumowania, takich jak rozwiązywanie problemów matematycznych czy wieloetapowe odpowiedzi na pytania.

Model ten powstał w oparciu o nową architekturę SambaY, stworzoną przez Microsoft. Wykorzystuje ona unikalne podejście typu dekoder-hybryda-dekoder, które integruje modele przestrzeni stanu (SSM) z warstwami uwagi, używając lekkiego mechanizmu Gated Memory Unit (GMU). Ta innowacyjna konstrukcja umożliwia efektywne współdzielenie pamięci między warstwami, co znacząco redukuje opóźnienia w scenariuszach wymagających przetwarzania długich kontekstów i generowania obszernych odpowiedzi.

SambaY: Nowe spojrzenie na efektywność

Odmiennie niż w tradycyjnych architekturach opartych na Transformerach, które w dużym stopniu polegają na pamięciożernych obliczeniach uwagi, SambaY zastępuje około połowy warstw cross-attention w cross-dekoderze jednostkami GMU. GMU, będące prostymi funkcjami bramkującymi, ponownie wykorzystują ukryty stan z końcowej warstwy SSM, eliminując zbędne obliczenia. Efektem jest liniowa złożoność czasowa fazy prefill i niższe zużycie zasobów podczas dekodowania, co przekłada się na znaczne przyspieszenie wnioskowania – nawet dziesięciokrotnie w porównaniu do poprzednika w zadaniach generowania długich sekwencji.

Phi-4-mini-Flash-Reasoning został wstępnie przeszkolony na 5 bilionach tokenów pochodzących z wysokiej jakości danych syntetycznych i filtrowanych danych rzeczywistych, co jest spójne z resztą rodziny Phi-4-mini. Po wstępnym szkoleniu model przeszedł wieloetapowe dostrajanie nadzorowane (SFT) oraz optymalizację bezpośrednią preferencji (DPO), wykorzystując zestawy danych instrukcji skoncentrowane na rozumowaniu. Co istotne, w przeciwieństwie do Phi-4-mini-Reasoning, całkowicie pominięto w nim uczenie wzmacniające z udziałem człowieka (RLHF).

Wydajność w praktyce

Mimo braku RLHF, Phi-4-mini-Flash-Reasoning przewyższa swojego poprzednika w szeregu złożonych zadań rozumowania. W benchmarku Math500 osiągnął dokładność pass@1 na poziomie 92,45%, deklasując Phi-4-mini-Reasoning (91,2%) oraz inne otwarte modele, takie jak Qwen-1.5B czy Bespoke-Stratos-7B. W testach AIME24/25 również odnotowano znaczące postępy, z ponad 52% dokładnością w AIME24.

Te imponujące wyniki wynikają ze zdolności architektury do generowania długich łańcuchów myślowych (CoT). Dzięki obsłudze kontekstu o długości 64K tokenów i zoptymalizowanemu wnioskowaniu w ramach środowiska vLLM, model może swobodnie przetwarzać i wnioskować na kontekstach obejmujących tysiące tokenów bez ograniczeń. W testach opóźnienia, z promptami o długości 2K tokenów i generowaniem odpowiedzi o długości 32K tokenów, Phi-4-mini-Flash-Reasoning osiąga do dziesięciu razy wyższą przepustowość niż jego poprzednik.

Zastosowania i dostępność

Efektywność Phi-4-mini-Flash-Reasoning nie ogranicza się do teorii. Projekt dekoder-hybryda-dekoder zapewnia konkurencyjne wyniki w benchmarkach długokontekstowych, takich jak Phonebook i RULER. Nawet przy małym oknie uwagi przesuwnej (SWA) o rozmiarze 256, model utrzymuje wysoką dokładność pobierania, co świadczy o tym, że długodystansowe zależności tokenów są skutecznie przechwytywane przez SSM i mechanizmy współdzielenia pamięci oparte na GMU.

Microsoft udostępnił wagi modelu i jego konfigurację na platformie Hugging Face, zapewniając pełny dostęp społeczności. Model obsługuje kontekst o długości 64K, działa w standardowych środowiskach Hugging Face i vLLM, a ponadto jest zoptymalizowany pod kątem szybkiego przetwarzania tokenów na procesorach graficznych A100.

Potencjalne zastosowania Phi-4-mini-Flash-Reasoning są szerokie i obejmują: wnioskowanie matematyczne (problemy na poziomie SAT, AIME), wieloetapowe odpowiadanie na pytania, analizę dokumentów prawnych i naukowych, autonomiczne agenty z długoterminową pamięcią oraz wysoko-przetwornicowe systemy czatowe. Połączenie otwartego dostępu, zdolności rozumowania i efektywności wnioskowania czyni ten model silnym kandydatem do zastosowań w środowiskach, gdzie zasoby obliczeniowe są ograniczone, ale złożoność zadań jest wysoka.

Phi-4-mini-Flash-Reasoning stanowi przykład, jak innowacje architektoniczne – zwłaszcza hybrydowe modele wykorzystujące SSM i efektywne bramkowanie – mogą przynieść transformacyjne wyniki w wydajności rozumowania bez niekontrolowanego zwiększania rozmiaru lub kosztów modelu. Wyznacza to nowy kierunek w efektywnym modelowaniu języka na długim kontekście, torując drogę dla działających w czasie rzeczywistym, działających na urządzeniach agentów rozumujących oraz skalowalnych, otwartych alternatyw dla komercyjnych dużych modeli językowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *