LLMR & D

Jak algorytm z 1967 roku stabilizuje najnowsze modele językowe AI

Współczesne modele językowe, takie jak GPT-3 czy Gemini, opierają się na architekturach z głębokimi sieciami neuronowymi, w których kluczową rolę odgrywają połączenia rezydualne, zapewniające stabilność przepływu sygnału. Te mechanizmy, choć efektywne, stają przed wyzwaniem w miarę wzrostu głębokości i złożoności sieci.

Badacze z DeepSeek skupili się na zaawansowanym wariancie połączeń rezydualnych – tak zwanych połączeniach hiperpołączeniowych (Hyper Connections). Zamiast pojedynczego strumienia rezydualnego, system ten wykorzystuje bufor wielostrumieniowy, co zwiększa ekspresywność modelu bez znaczącego wzrostu kosztów obliczeniowych. W praktyce oznacza to lepsze wyniki w zadaniach związanych z przetwarzaniem języka naturalnego.

Wyzwania niestabilności w głębokich sieciach

Problem pojawia się w momencie skalowania. Kiedy model staje się bardzo głęboki, a liczba warstw narasta, mnożenie macierzy mieszających strumienie rezydualne prowadzi do niestabilności. DeepSeek zaobserwował, że w 27-miliardowym modelu z architekturą MoE (Mixture of Experts), wskaźnik Amax Gain Magnitude, mierzący najgorszy przypadek wzmocnienia sygnału w ścieżce przesyłu danych, osiągał wartości rzędu 3000. Docelowo wartość ta powinna wynosić około 1, aby zapewnić stabilność. Taka amplifikacja prowadziła do skoków w funkcji straty i niestabilnych gradientów, uniemożliwiając efektywne trenowanie modelu.

Dodatkowo, utrzymywanie bufora wielostrumieniowego zwiększało ruch w pamięci dla każdego tokena, co ograniczało praktyczne zastosowanie połączeń hiperpołączeniowych w skalowanych systemach produkcyjnych.

Rozwiązanie problemu: Manifold Constrained Hyper Connections (mHC)

Odpowiedzią na te wyzwania jest Manifold Constrained Hyper Connections (mHC). Rdzeniem innowacji jest modyfikacja macierzy mieszających strumienie rezydualne. Zamiast pozwalać im na swobodne działanie w całej przestrzeni n x n, są one rzutowane na rozmaitość macierzy podwójnie stochastycznych, znanych również jako polytop Birkhoffa. W tych macierzach wszystkie elementy są nieujemne, a suma każdego wiersza i każdej kolumny wynosi 1. To matematyczne ograniczenie gwarantuje, że całkowita masa cech jest zachowana, a norma sygnału ściśle regulowana, eliminując eksplozywny wzrost obserwowany w zwykłych połączeniach hiperpołączeniowych.

Aby wymusić to ograniczenie, zespół DeepSeek zastosował algorytm Sinkhorna-Knoppa z 1967 roku. Algorytm ten, poprzez naprzemienne normalizowanie wierszy i kolumn, przybliża daną macierz do postaci podwójnie stochastycznej. W trakcie szkolenia modelu, 20 iteracji algorytmu na warstwę okazało się wystarczające, aby utrzymać odwzorowanie blisko docelowej rozmaitości, jednocześnie zachowując akceptowalny koszt obliczeniowy.

W efekcie zastosowanie mHC radykalnie zmniejszyło wartość Amax Gain Magnitude w 27-miliardowym modelu do około 1.6, co stanowi redukcję o około trzy rzędy wielkości. Ta stabilność wynika bezpośrednio z matematycznego ograniczenia, a nie z szeregu heurystycznych poprawek.

Optymalizacja systemowa i wyniki empiryczne

Wprowadzenie dodatkowych obliczeń, takich jak iteracje Sinkhorna-Knoppa, mogłoby zwiększyć narzut treningowy. Badacze DeepSeek wdrożyli szereg optymalizacji systemowych:

  • Scalone kernely: Połączono operacje RMSNorm, projekcje i bramkowanie dla odwzorowań mHC, aby zminimalizować ruch pamięci.
  • Aktywacyjne punktowanie kontrolne (activation checkpointing): Aktywacje mHC są ponownie obliczane w trakcie propagacji wstecznej dla bloków warstw, co obniża zużycie pamięci kosztem dodatkowych obliczeń.
  • Integracja z harmonogramem DualPipe: Nakładanie się komunikacji i ponownych obliczeń zapobiega przestojom w potoku treningowym.

Dzięki tym optymalizacjom, mHC z współczynnikiem ekspansji n=4 zwiększyło czas treningu o około 6.7% w porównaniu do architektury bazowej. W zamian za to modele trenowane z mHC wykazały znaczące usprawnienia w benchmarkach, takich jak BBH i DROP, szczególnie w większych modelach. Na przykład, dla modelu 27B, wyniki BBH wzrosły z 43.8 (baseline) do 51.0 (mHC), a DROP F1 z 47.0 do 53.9. Oznacza to, że mHC nie tylko przywraca stabilność, ale także znacząco poprawia wydajność i precyzję modeli językowych.

Podejście to otwiera nowe możliwości w projektowaniu i skalowaniu przyszłych dużych modeli językowych, wskazując, że jawne projektowanie topologii i ograniczeń rozmaitości strumienia rezydualnego może być kluczem do odblokowania lepszej wydajności i stabilności.