Narzędzie do optymalizacji dużych modeli językowych: naukowcy z Princeton prezentują LLM-Pruning Collection
W obliczu rosnącej złożoności i rozmiarów dużych modeli językowych (LLM), optymalizacja ich wydajności i redukcja zasobów obliczeniowych stała się priorytetem. Odpowiedzią na te wyzwania jest LLM-Pruning Collection, zestaw narzędzi stworzony przez zespół badaczy Zlab z Uniwersytetu Princeton. Jest to oparte na JAX repozytorium, które integruje w ramach jednej, odtwarzalnej struktury wiodące algorytmy kompresji LLM, kładąc nacisk na porównywalność metod przycinania na różnych poziomach — bloków, warstw i wag.
Spójne środowisko do oceny algorytmów
Kluczową zaletą LLM-Pruning Collection jest oferowanie ujednoliconego stosu szkoleniowego i ewaluacyjnego, który wspiera zarówno procesory graficzne (GPU), jak i jednostki przetwarzania tensorów (TPU). Repozytorium jest zorganizowane wokół trzech głównych katalogów:
pruning: zawiera implementacje uznanych metod, takich jak Minitron, ShortGPT, Wanda, SparseGPT, Magnitude, Sheared Llama i LLM-Pruner.training: zapewnia integrację z FMS-FSDP dla szkolenia na GPU oraz MaxText dla TPU.eval: udostępnia skrypty ewaluacyjne kompatybilne z JAX, zbudowane wokółlm-eval-harness, z obsługą MaxText przyspieszającą ocenę od 2 do 4 razy.
Metody przycinania w LLM-Pruning Collection
Minitron i ShortGPT
Minitron, opracowany przez NVIDIA, to pragmatyczne podejście do przycinania i destylacji, które pozwala na znaczną redukcję rozmiarów modeli (np. Llama 3.1 8B do 4B) przy zachowaniu wydajności. Wykorzystuje on przycinanie głębi oraz wspólne przycinanie szerokości, a następnie destylację. ShortGPT natomiast bazuje na obserwacji, że wiele warstw transformatorowych jest nadmiarowych. Metoda ta definiuje „wpływ bloku” i usuwa warstwy o niskim wpływie, co w eksperymentach przekłada się na lepszą wydajność w zadaniach generatywnych i wielokrotnego wyboru.
Wanda, SparseGPT i Magnitude
Wanda to metoda przycinania po treningu, która ocenia wagi na podstawie iloczynu ich magnitudy i aktywacji, nie wymagając ponownego szkolenia. SparseGPT, również metoda po treningu, wykorzystuje krok rekonstrukcji drugiego rzędu do efektywnego przycinania dużych modeli GPT, nawet przy wysokich współczynnikach rzadkości. Magnitude pruning to klasyczna metoda bazowa, usuwająca wagi o małej wartości bezwzględnej. Wszystkie te trzy algorytmy są zawarte w katalogu pruning/wanda, a ich porównanie dla modelu Llama 2 7B jest szczegółowo przedstawione w repozytorium.
Sheared LLaMA i LLM-Pruner
Sheared LLaMA to metoda strukturalnego przycinania, która uczy masek dla warstw, „głów” uwagi i ukrytych wymiarów, a następnie ponownie szkoli przyciętą architekturę. LLM-Pruner koncentruje się na usuwaniu krytycznych, sprzężonych struktur (jak głowy uwagi czy kanały MLP), wykorzystując gradientowe miary ważności, po czym odzyskuje wydajność za pomocą krótkiego etapu dostrajania LoRA.
Wpływ i znaczenie dla badań
LLM-Pruning Collection to znaczący krok w dążeniu do standaryzacji i ułatwienia badań nad kompresją LLM. Ujednolicenie różnych metod przycinania w jednym, odtwarzalnym repozytorium na licencji Apache-2.0 dostarcza inżynierom i badaczom spójnego narzędzia do efektywnego porównywania algorytmów. Możliwość weryfikacji wyników z wcześniejszych prac, dzięki publikowaniu tabel „papier vs. reprodukcja”, znacząco podnosi wiarygodność i użyteczność tego projektu w dalszym rozwoju optymalizacji dużych modeli językowych.
