Od pozycji do znaczenia: Jak sztuczna inteligencja uczy się czytać
Zdolności językowe współczesnych systemów sztucznej inteligencji, takich jak ChatGPT czy Gemini, bywają zdumiewające. Prowadzenie naturalnych konwersacji z tymi algorytmami to już codzienność, a ich płynność zbliża się do ludzkiej. Mimo to, wciąż niewiele wiemy o wewnętrznych procesach tych sieci, które prowadzą do tak niezwykłych rezultatów.
Pracą, która odsłania rąbek tej tajemnicy, jest badanie zatytułowane „A Phase Transition between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention”, opublikowane w Journal of Statistical Mechanics: Theory and Experiment. Wyniki wskazują, że sieci neuronowe, trenowane na niewielkich zbiorach danych, początkowo opierają się na pozycji słów w zdaniu. Jednakże, w miarę ekspozycji na większe ilości informacji, system przechodzi do nowej strategii, opartej na znaczeniu wyrazów.
Próg danych i zmiana strategii
Badanie ujawnia, że wspomniana transformacja zachodzi nagle, po przekroczeniu krytycznego progu danych – analogicznie do przemiany fazowej obserwowanej w układach fizycznych. Te wnioski dostarczają wartościowych spostrzeżeń, pomagając w zrozumieniu wewnętrznego działania modeli językowych.
Proces ten można porównać do nauki czytania przez dziecko: na początku sieć neuronowa rozumie zdania, bazując na usytuowaniu słów. Relacje między wyrazami (np. podmiot, orzeczenie, dopełnienie) są dla niej inferowane z ich pozycji. Jednak w miarę kontynuacji treningu – algorytm, niczym uczeń, „kontynuuje naukę” – następuje przesunięcie: znaczenie słów staje się głównym źródłem informacji.
W uproszczonym modelu mechanizmu samo uwagi – kluczowego komponentu modeli transformatorowych, takich jak ChatGPT czy Claude – dzieje się dokładnie to, co opisuje nowe badanie. Hugo Cui, badacz z Harvard University i pierwszy autor badania, wyjaśnia: „Aby ocenić relacje między słowami, sieć może wykorzystywać dwie strategie, z których jedna to wykorzystanie pozycji słów”. W języku angielskim, na przykład, podmiot zazwyczaj poprzedza orzeczenie, które z kolei poprzedza dopełnienie. „Mary eats the apple” to prosty przykład takiej sekwencji.
Fizyka w sieciach neuronowych
Cui zauważa, że to właśnie ta strategia pozycji „spontanicznie pojawia się najpierw, gdy sieć jest trenowana. Jednakże, w naszym badaniu zaobserwowaliśmy, że jeśli trening jest kontynuowany i sieć otrzymuje wystarczająco dużo danych, w pewnym momencie – po przekroczeniu progu – strategia gwałtownie się zmienia: sieć zaczyna polegać na znaczeniu”.
Fascynującym odkryciem było to, że poniżej pewnego progu sieć polegała wyłącznie na pozycji, natomiast powyżej – wyłącznie na znaczeniu. Cui opisuje tę zmianę jako przemianę fazową, czerpiąc z koncepcji fizyki. Fizyka statystyczna bada układy składające się z ogromnej liczby cząstek, opisując ich zbiorowe zachowanie statystycznie.
Podobnie, sieci neuronowe – stanowiące fundament systemów AI – zbudowane są z dużej liczby „węzłów” lub neuronów, z których każdy jest połączony z wieloma innymi i wykonuje proste operacje. Inteligencja systemu wyłania się z interakcji tych neuronów, co można opisać metodami statystycznymi. Dlatego też mówimy o nagłej zmianie zachowania sieci jako o przemianie fazowej, podobnie jak woda, w odpowiednich warunkach temperatury i ciśnienia, zmienia stan skupienia z cieczy na gaz.
„Zrozumienie, z teoretycznego punktu widzenia, że zmiana strategii następuje w ten sposób, jest istotne” – podkreśla Cui. „Nasze sieci są uproszczone w porównaniu do złożonych modeli, z którymi ludzie na co dzień mają do czynienia, ale mogą nam dać wskazówki do zrozumienia warunków, które powodują, że model stabilizuje się na jednej lub drugiej strategii. Ta teoretyczna wiedza, miejmy nadzieję, może być w przyszłości wykorzystana do uczynienia wykorzystania sieci neuronowych bardziej efektywnym i bezpiecznym”.
