Architektura LLM w 2025 roku: Jak ewoluuje serce sztucznej inteligencji?
Od momentu powstania oryginalnej architektury GPT upłynęło siedem lat. Patrząc wstecz na GPT-2 (2019) i na nadchodzące DeepSeek-V3 oraz Llama 4 (2024-2025), można być zaskoczonym, jak strukturalnie podobne pozostają te modele. Oczywiście, osadzenia pozycyjne ewoluowały od absolutnych do rotacyjnych (RoPE), mechanizm Multi-Head Attention w dużej mierze ustąpił miejsca Grouped-Query Attention (GQA), a bardziej efektywna funkcja aktywacji SwiGLU zastąpiła poprzednie, takie jak GELU. Jednak pod tymi drobnymi zmianami, czy faktycznie zaobserwowaliśmy przełomowe modyfikacje, czy może jedynie udoskonalamy te same fundamenty architektoniczne?
Porównywanie LLM w celu określenia kluczowych składników wpływających na ich wydajność jest niezwykle trudne. Zestawy danych, techniki treningowe i hiperparametry różnią się w szerokim zakresie i często nie są dobrze udokumentowane. Mimo to, wciąż jest wiele wartości w analizowaniu zmian strukturalnych samych architektur, aby zrozumieć, jakie innowacje wprowadzają twórcy LLM w 2025 roku.
W niniejszym artykule, zamiast skupiać się na wynikach benchmarków czy algorytmach treningowych, skoncentrujemy się na rozwoju architektonicznym, który definiuje flagowe otwarte modele. Omówimy możliwości tekstowe najnowszych modeli, odkładając dyskusję na temat cech multimodalnych na inny czas.
DeepSeek V3: Efektywność poprzez MLA i MoE
DeepSeek R1, wprowadzony w styczniu 2025 roku, wywołał znaczące poruszenie, będąc modelem rozumowania zbudowanym na architekturze DeepSeek V3, zaprezentowanej w grudniu 2024 roku. Choć DeepSeek V3 pojawił się wcześniej, jego szeroka adopcja nastąpiła dopiero po premierze R1 w 2025 roku.
Dwie kluczowe techniki architektoniczne wprowadzone w DeepSeek V3 znacząco poprawiły jego efektywność obliczeniową, wyróżniając go spośród wielu innych LLM: Multi-Head Latent Attention (MLA) oraz Mixture-of-Experts (MoE).
Multi-Head Latent Attention (MLA): Kompresja dla wydajności
Zanim zagłębimy się w MLA, warto wspomnieć o Grouped-Query Attention (GQA), które stało się nowym standardem zastępczym dla Multi-Head Attention (MHA) w ostatnich latach, oferującym większą efektywność obliczeniową i pamięciową. GQA redukuje wykorzystanie pamięci, grupując wiele głów w celu współdzielenia tych samych projekcji kluczy i wartości. Na przykład, w przypadku 4 głowic uwagi i 2 grup kluczy-wartości, głowice 1 i 2 mogą współdzielić jeden zestaw kluczy i wartości, podczas gdy głowice 3 i 4 inny. To zmniejsza całkowitą liczbę obliczeń klucza i wartości, prowadząc do niższego zużycia pamięci i poprawy wydajności, bez zauważalnego wpływu na wydajność modelowania.
MLA oferuje inną strategię oszczędzania pamięci, szczególnie dobrze współpracującą z buforowaniem KV. Zamiast współdzielić głowice kluczy i wartości jak GQA, MLA kompresuje tensory kluczy i wartości do przestrzeni o niższej wymiarowości przed zapisaniem ich w buforze KV. Podczas wnioskowania, te skompresowane tensory są ponownie rzutowane do ich oryginalnego rozmiaru przed użyciem. Dodaje to wprawdzie dodatkowe mnożenie macierzy, ale znacząco zmniejsza zużycie pamięci.
MLA nie jest nowością DeepSeek V3; jego poprzednik, DeepSeek-V2, już z niego korzystał. Badania ablacyjne, przedstawione w dokumencie DeepSeek-V2, sugerują, że MLA przewyższa MHA pod względem wydajności modelowania, podczas gdy GQA wypada gorzej niż MHA. To prawdopodobnie wyjaśnia, dlaczego zespół DeepSeek wybrał MLA. Podsumowując, MLA to sprytny sposób na zmniejszenie zużycia pamięci podręcznej KV, jednocześnie nieznacznie przewyższając MHA pod względem wydajności modelowania.
Mixture-of-Experts (MoE): Skalowanie z umiarem
Innym kluczowym komponentem architektonicznym w DeepSeeku, wartym podkreślenia, jest zastosowanie warstw Mixture-of-Experts (MoE). Chociaż DeepSeek nie wynalazł MoE, technologia ta przeżywa renesans, a wiele architektur, które zostaną omówione, również ją adoptuje.
Podstawową ideą MoE jest zastąpienie każdego modułu FeedForward w bloku transformera wieloma warstwami eksperckimi, gdzie każda z nich również jest modułem FeedForward. Blok FeedForward wewnątrz bloku transformera zazwyczaj zawiera znaczną liczbę wszystkich parametrów modelu. W przypadku DeepSeek-V3, blok ten jest powtarzany 61 razy. Zastąpienie pojedynczego bloku FeedForward wieloma (jak w MoE) znacznie zwiększa całkowitą liczbę parametrów modelu. Kluczowa sztuczka polega jednak na tym, że nie wszyscy eksperci są aktywowani dla każdego tokena. Zamiast tego, router wybiera tylko mały podzbiór ekspertów na token. Duża sumaryczna liczba parametrów w MoE zwiększa pojemność LLM, co oznacza, że może on przyswoić więcej wiedzy podczas treningu. Rzadkość aktywacji utrzymuje efektywność wnioskowania, ponieważ nie wszystkie parametry są używane jednocześnie.
Na przykład, DeepSeek-V3 ma 256 ekspertów na moduł MoE i łącznie 671 miliardów parametrów. Jednak podczas wnioskowania aktywnych jest tylko 9 ekspertów (1 współdzielony ekspert plus 8 wybranych przez router). Oznacza to, że na jednym kroku wnioskowania używane jest zaledwie 37 miliardów parametrów, a nie całe 671 miliardów.
Jedną z godnych uwagi cech konstrukcji MoE DeepSeek-V3 jest zastosowanie współdzielonego eksperta, który jest zawsze aktywny dla każdego tokena. Idea ta nie jest nowa i została już wprowadzona w DeepSeek 2024 MoE i 2022 DeepSpeedMoE. Korzyść z posiadania współdzielonego eksperta została po raz pierwszy zauważona w artykule DeepSpeedMoE, gdzie stwierdzono, że zwiększa on ogólną wydajność modelowania w porównaniu do braku współdzielonych ekspertów. Prawdopodobnie wynika to z faktu, że wspólne lub powtarzające się wzorce nie muszą być uczone przez wielu indywidualnych ekspertów, co pozostawia im więcej miejsca na naukę wzorców bardziej wyspecjalizowanych.
DeepSeek-V3 to potężny model o 671 miliardach parametrów, który w momencie premiery przewyższał inne otwarte modele, w tym 405B Llama 3. Pomimo większego rozmiaru, jest znacznie bardziej wydajny w czasie wnioskowania dzięki architekturze Mixture-of-Experts (MoE), która aktywuje tylko niewielki podzbiór (zaledwie 37B) parametrów na token. Kolejną wyróżniającą cechą jest zastosowanie przez DeepSeek-V3 Multi-Head Latent Attention (MLA) zamiast Grouped-Query Attention (GQA). Obie techniki, MLA i GQA, są wydajnymi alternatywami dla standardowego Multi-Head Attention (MHA), szczególnie przy użyciu buforowania KV. Chociaż MLA jest bardziej złożone w implementacji, badanie w dokumencie DeepSeek-V2 wykazało, że zapewnia ono lepszą wydajność modelowania niż GQA.
OLMo 2: Transparentność i stabilizacja poprzez normalizację
Modele serii OLMo stworzone przez The Allen Institute for AI, organizację non-profit, zasługują na uwagę ze względu na swoją transparentność w zakresie danych treningowych i kodu, a także stosunkowo szczegółowe raporty techniczne. Choć modeli OLMo prawdopodobnie nie znajdziemy na szczytach żadnych rankingów, są one niezwykle czyste i, co ważniejsze, stanowią doskonały wzór do budowania LLM, właśnie dzięki swojej transparentności. Warto dodać, że modele OLMo, choć cenione za przejrzystość, same w sobie nie są złe. W chwili premiery w styczniu (przed Llama 4, Gemma 3 i Qwen 3), modele OLMo 2 znajdowały się na granicy Pareto efektywności obliczeniowej do wydajności.
W OLMo2 ciekawe decyzje projektowe architektoniczne koncentrowały się głównie na normalizacjach: umiejscowieniu warstw RMSNorm, a także dodaniu QK-normy. Warto również zaznaczyć, że OLMo 2 nadal korzysta z tradycyjnego Multi-Head Attention (MHA) zamiast MLA czy GQA.
Umiejscowienie warstwy normalizacji: Stabilizacja treningu
Ogólnie rzecz biorąc, architektura OLMo 2 w dużej mierze naśladuje oryginalny model GPT, podobnie jak inne współczesne LLM. Istnieją jednak pewne godne uwagi odstępstwa w umiejscowieniu warstw normalizacji. Podobnie jak Llama, Gemma i większość innych LLM, OLMo 2 przeszedł z LayerNorm na RMSNorm.
Różnica polega na umiejscowieniu warstwy RMSNorm. Oryginalny transformer umieszczał dwie warstwy normalizacji w bloku transformera po module uwagi i module FeedForward (Post-LN). GPT i większość innych LLM, które pojawiły się później, umieszczały warstwy normalizacji przed modułami uwagi i FeedForward (Pre-LN). Wykazano, że Pre-LN skutkuje lepiej zachowującymi się gradientami podczas inicjalizacji i dobrze działa nawet bez starannego rozgrzewania tempa uczenia, które jest kluczowe dla Post-LN.
OLMo 2 zastosował formę Post-LN (z RMSNorm zamiast LayerNorm). W OLMo 2 warstwy normalizacji są umieszczone po warstwach uwagi i FeedForward. Co ważne, w przeciwieństwie do oryginalnej architektury transformera, warstwy normalizacji nadal znajdują się w warstwach resztkowych (połączeniach pominiętych). Przesunięcie pozycji warstw normalizacji pomogło w stabilizacji treningu. Niestety, wyniki te są często prezentowane łącznie z QK-Normą, co utrudnia ocenę indywidualnego wpływu przemieszczenia warstw normalizacji.
QK-Norm: Dodatkowa normalizacja dla stabilności
QK-Norm, stosowana również w innych LLM, takich jak Gemma 2 i Gemma 3, jest w istocie kolejną warstwą RMSNorm. Jest ona umieszczona wewnątrz modułu Multi-Head Attention (MHA) i stosowana do zapytań (q) i kluczy (k) przed zastosowaniem RoPE. W połączeniu z Post-Normą, QK-Norm stabilizuje trening. Warto zaznaczyć, że QK-Norm nie została wynaleziona przez OLMo 2, ale pochodzi z artykułu Scaling Vision Transformers z 2023 roku.
Kluczowe decyzje projektowe OLMo 2 koncentrują się na umiejscowieniu RMSNorm: RMSNorm po, a nie przed, modułami uwagi i FeedForward (rodzaj Post-Norm), oraz dodanie RMSNorm dla zapytań i kluczy wewnątrz mechanizmu uwagi (QK-Norm). Oba te elementy wspólnie pomagają ustabilizować utratę treningu. W porównaniu z Llama 3, architektury są stosunkowo podobne, z wyjątkiem faktu, że OLMo 2 nadal używa tradycyjnego MHA zamiast GQA.
Gemma 3: Uwaga ślizgowa dla oszczędności
Modele Gemma od Google zawsze były bardzo dobre i, moim zdaniem, nieco niedoceniane w porównaniu do Llama. Jednym z wyróżniających aspektów Gemma jest duży rozmiar słownika (dla lepszego wsparcia wielu języków) i silniejsze skupienie na rozmiarze 27B. Gemma 2 była również dostępna w mniejszych rozmiarach: 1B, 4B i 12B. Rozmiar 27B osiąga bardzo dobry balans: jest znacznie bardziej zdolny niż model 8B, ale nie tak zasobożerny jak model 70B, i działa płynnie lokalnie na popularnych maszynach.
Podczas gdy inne modele, takie jak Deepseek-V3/R1, używają architektury Mixture-of-Experts (MoE) do zmniejszenia wymagań pamięciowych podczas wnioskowania, Gemma 3 stosuje inną metodę redukcji kosztów obliczeniowych – uwagę ślizgową (sliding window attention).
Uwaga ślizgowa (sliding window attention): Lokalizacja uwagi dla efektywności
Uwaga ślizgowa, pierwotnie wprowadzona w artykule LongFormer w 2020 roku i już używana przez Gemma 2, pozwoliła zespołowi Gemma 3 znacząco zmniejszyć wymagania pamięciowe w pamięci podręcznej KV. Jeśli regularną autorską uwagę potraktujemy jako globalny mechanizm uwagi (gdzie każdy element sekwencji może uzyskać dostęp do każdego innego elementu sekwencji), to uwagę ślizgową można uznać za uwagę lokalną, ponieważ ogranicza ona rozmiar kontekstu wokół bieżącej pozycji zapytania. Uwaga ślizgowa może być używana zarówno z Multi-Head Attention, jak i Grouped-Query Attention; Gemma 3 używa tej ostatniej. Różnica w Gemma 3 polega na regulacji proporcji między uwagą globalną (regularną) a lokalną (ślizgową). Na przykład, Gemma 2 stosuje hybrydowy mechanizm uwagi, który łączy uwagę ślizgową i globalną w proporcji 1:1. Każdy token może skupić się na oknie 4k tokenów pobliskiego kontekstu. W Gemma 3 stosunek ten wynosi 5:1, co oznacza, że jest tylko 1 pełna warstwa uwagi na każde 5 warstw uwagi ślizgowej. Co więcej, rozmiar okna ślizgowego został zmniejszony z 4096 (Gemma 2) do zaledwie 1024 (Gemma 3). To przesunięcie skupienia modelu w kierunku bardziej efektywnych, zlokalizowanych obliczeń. Badania ablacyjne wskazują, że użycie uwagi ślizgowej ma minimalny wpływ na wydajność modelowania.
Umiejscowienie warstwy normalizacji w Gemma 3: Hybrydowe podejście
Warto zauważyć, że Gemma 3 używa RMSNorm zarówno w ustawieniach Pre-Norm, jak i Post-Norm wokół modułu uwagi grupowanej (grouped-query attention). Jest to podobne do Gemma 2, ale godne podkreślenia, ponieważ różni się od oryginalnego Post-Norm w transformerach, Pre-Norm spopularyzowanego przez GPT-2 i smaku Post-Norm w OLMo 2. To podejście wydaje się intuicyjne, łącząc najlepsze cechy obu metod, zapewniając dodatkową normalizację, która, mimo potencjalnej redundancji, nie wpływa znacząco na wydajność ze względu na niskie koszty RMSNorm.
Gemma 3 to dobrze działający, otwarty LLM, który moim zdaniem jest nieco niedoceniany w środowiskach open source. Najciekawszą częścią jest zastosowanie uwagi ślizgowej do poprawy wydajności – z pewnością interesujące będzie połączenie jej z MoE w przyszłości.
Inne kluczowe modele na horyzoncie
Na polu LLM nieustannie pojawiają się nowe, obiecujące rozwiązania, które zapowiadają dalszy rozwój sztucznej inteligencji. Mistral Small 3.1 24B, wydany w marcu krótko po Gemma 3, wykazuje wysoką wydajność, prześcigając Gemma 3 27B w kilku benchmarkach (z wyjątkiem matematyki), jednocześnie będąc szybszym.
Llama 4, czerpiąc z wcześniejszych dyskusji na temat Mixture-of-Experts (MoE), również przyjęła to podejście i zasadniczo opiera się na standardowej architekturze, bardzo podobnej do DeepSeek-V3.
Zespół Qwen konsekwentnie dostarcza wysokiej jakości otwarte modele LLM, które zyskują uznanie w społeczności. SmolLM3, choć nie tak popularny jak inne modele w tym zestawieniu, jest interesującym rozwiązaniem, oferującym imponującą wydajność modelowania przy stosunkowo niewielkim i wygodnym rozmiarze 3 miliardów parametrów, plasując się między modelami Qwen3 1.7B i 4B.
Kimi 2, który niedawno wywołał duże poruszenie w społeczności AI, wyróżnia się jako otwarty model o niezwykle wysokiej wydajności. Według benchmarków dorównuje najlepszym zastrzeżonym modelom, takim jak Gemini Google, Claude firmy Anthropic i modele ChatGPT OpenAI.
Wszystkie te modele świadczą o nieustającej dynamice i innowacyjności w dziedzinie LLM, budząc ciekawość, co przyniesie przyszłość.
