Przełom w rozumieniu AI: Kiedy sieć neuronowa zaczyna rozumieć sens
Współczesne modele sztucznej inteligencji, takie jak ChatGPT czy Gemini, zadziwiają płynnością i naturalnością konwersacji. Pytanie o to, w jaki sposób osiągają tak zaawansowane możliwości rozumienia języka, pozostaje jednak w dużej mierze tajemnicą. Nowe badania, prowadzone przez zespół pod kierownictwem Hugo Cui z Harvard University i opublikowane w „Journal of Statistical Mechanics: Theory and Experiment” (JSTAT), rzucają światło na ten złożony proces, identyfikując moment, w którym sieć neuronowa przestaje „czytać”, a zaczyna „rozumieć”.
Badacze odkryli, że w początkowej fazie treningu sieci neuronowe, zwłaszcza te oparte na architekturze transformera, koncentrują się na pozycji słów w zdaniu. Jest to strategia analogiczna do sposobu, w jaki małe dziecko uczy się rozpoznawać struktury zdania, wnioskując o relacjach między wyrazami na podstawie ich szyku – na przykład, że podmiot zazwyczaj poprzedza orzeczenie. To podejście jest efektywne przy ograniczonym zestawie danych, gdzie znajomość struktury jest kluczowa dla interpretacji.
Jednak, jak wyjaśnia Hugo Cui, wraz ze wzrostem ilości danych treningowych, dochodzi do punktu krytycznego. Wówczas strategia sieci gwałtownie się zmienia: z zależności od pozycji słów, przechodzi ona na koncentrację na ich znaczeniu. To nagłe przejście, które naukowcy określają mianem „przejścia fazowego”, przywołuje na myśl zjawiska fizyczne, takie jak skraplanie się pary wodnej w ciecz. Poniżej pewnego progu danych model polega wyłącznie na pozycji, powyżej zaś – wyłącznie na znaczeniu.
„Kiedy projektowaliśmy tę pracę, chcieliśmy po prostu zbadać, jakie strategie, lub ich mieszanki, przyjmą sieci. Ale to, co odkryliśmy, było nieco zaskakujące: poniżej pewnego progu sieć polegała wyłącznie na pozycji, a powyżej – tylko na znaczeniu” – podkreśla Cui.
To odkrycie ma fundamentalne znaczenie. Transformatory, będące podstawą współczesnych dużych modeli językowych, wykorzystują mechanizm samo-uwagi, aby ocenić ważność każdego słowa względem pozostałych w sekwencji. Zrozumienie, że proces ten ewoluuje od skupienia na składni do koncentracji na semantyce, daje bezprecedensowy wgląd w wewnętrzne mechanizmy AI. Fakt, że tak klarowne przejście fazowe zaobserwowano nawet w uproszczonych modelach testowych, sugeruje, że jest to fundamentalna właściwość uczenia się języka przez maszyny.
Hugo Cui zauważa, że choć badane sieci były uproszczone w porównaniu do złożonych modeli używanych na co dzień, ich wyniki dostarczają cennych wskazówek. Wiedza teoretyczna na temat warunków, które stabilizują model na konkretnej strategii, może w przyszłości pomóc w projektowaniu bardziej efektywnych, bezpiecznych i przewidywalnych systemów AI. Możliwe jest, że świadome sterowanie tym „punktem przełomu” pozwoli na tworzenie modeli, które szybciej osiągną głębsze rozumienie języka, zużywając przy tym mniej zasobów i wykazując większą stabilność.
Badania Hugo Cui, Freyi Behrens, Florenta Krzakali i Lenki Zdeborovej, zatytułowane „A Phase Transition between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention”, są częścią specjalnego wydania JSTAT „Machine Learning 2025” i zostały zaprezentowane na konferencji NeurIPS 2024.
