Sukces DeepSeek pokazuje, dlaczego odpowiednia motywacja wynikająca z konkurencji jest kluczowa dla innowacji.
W styczniu 2025 roku chińska firma DeepSeek niespodziewanie wkroczyła na arenę dużych modeli językowych (LLM), wywołując sporą sensację w świecie sztucznej inteligencji. Choć DeepSeek-R1 pod względem wyników w testach nie przewyższał topowych modeli amerykańskich gigantów, jego efektywność sprzętowa i zużycie energii były niespotykane. To właśnie te parametry zmusiły rywali do ponownej analizy priorytetów. Plotki sugerują, że DeepSeek mogło korzystać z modeli OpenAI w procesie treningu, jednak brak dowodów sprawia, że temat ten pozostaje przedmiotem spekulacji.
DeepSeek wprowadziło innowacje poprzez optymalizację pamięci GPU dzięki technice kompresji pamięci Key-Value. W warstwach atencji, kluczowych dla LLM, firma zastosowała kompresję i późniejszą dekompresję wektorów kluczowych i wartości. To umożliwiło redukcję zużycia pamięci bez większej utraty na wydajności, co wyróżnia DeepSeek na tle konkurencji.
Innym kluczowym podejściem było zastosowanie mieszanki ekspertów (MoE) w strukturze sieci neuronowej. Technika ta pozwala sieci aktywować jedynie te jej części, które są istotne dla konkretnego zapytania, co znacząco zmniejsza koszty obliczeniowe. Pomimo, że pewne zapytania wymagają zaangażowania różnych obszarów wiedzy, co może wpłynąć na wyniki, efektywność tego podejścia w ogólnym rozrachunku jest nie do przecenienia.
Z kolei, DeepSeek podczas treningu modelu stosowało uczenie przez wzmacnianie, ograniczając potrzebę kosztownych danych treningowych. Model generował przemyślenia i odpowiedzi w określonym formacie, był oceniany na podstawie struktury i zgodności odpowiedzi, co pozwoliło zredukować koszty związane z procesem nauki.
Choć DeepSeek musiało stawić czoła bardziej znanym firmom, to ich wkład w rozwój LLM jest nieoceniony. Efektywność, jaką zyskali, zmusiła konkurencję do refleksji nad własnymi strategiami. Jednak dominacja OpenAI w świecie LLM zdaje się być coraz mniej prawdopodobna, gdy technologia jest w rękach wielu graczy.
Dzięki wczesnym pionierom takim jak Google i OpenAI, możliwe są dzisiaj rewolucje pokroju tej zapoczątkowanej przez DeepSeek. To jest swego rodzaju piękno badań naukowych – wzajemne inspirowanie się i wykorzystanie doświadczeń innych. Mimo obaw inwestorów, zyskują na tym wszyscy użytkownicy.
