Agenci AIR & D

Przełomowe badanie MIT: uczenie przez wzmacnianie minimalizuje 'katastroficzne zapominanie’ w modelach AI

W świecie sztucznej inteligencji, gdzie modele fundacyjne (ang. foundation models) dominują w różnorodnych dziedzinach, pojawia się poważny problem: 'katastroficzne zapominanie’. Modele te, wytrenowane do perfekcji w konkretnych zadaniach, wykazują tendencję do gubienia wcześniej zdobytych umiejętności podczas dostrajania do nowych celów. To tak, jakby uczeń tracił wiedzę z matematyki, ucząc się fizyki. Naukowcy z MIT postanowili przyjrzeć się temu zjawisku i znaleźli obiecujące rozwiązanie w uczeniu przez wzmacnianie (Reinforcement Learning – RL).

Uczenie przez wzmacnianie kontra nadzorowane dostrajanie: kluczowa różnica

Badacze z MIT porównali dwie popularne metody adaptacji modeli AI: uczenie przez wzmacnianie (RL) i nadzorowane dostrajanie (Supervised Fine-Tuning – SFT). Obie techniki mogą poprawić wydajność modelu w nowych zadaniach, ale SFT często odbywa się kosztem wcześniejszych umiejętności. RL, z drugiej strony, wydaje się być bardziej konserwatywne w zachowywaniu wiedzy. Dlaczego? Odpowiedź leży w sposobie, w jaki każda z metod zmienia rozkład wyjściowy modelu w odniesieniu do bazowej polityki działania.

Mierzenie zapominania: nowa metryka

Zespół badawczy zaproponował empiryczne prawo zapominania oparte na dywergencji Kullbacka-Leiblera (KL) pomiędzy bazowym modelem a modelem po dostrojeniu. Dywergencja KL mierzona na nowym zadaniu, silnie koreluje ze stopniem zapominania. To pozwala na kwantyfikację zapominania bez konieczności posiadania danych z poprzednich zadań.

Eksperymenty na dużych modelach językowych

Aby przetestować swoją hipotezę, naukowcy wykorzystali model językowy Qwen 2.5 3B-Instruct jako model bazowy. Dostrajali go do trzech różnych zadań: rozumowanie matematyczne, odpowiadanie na pytania naukowe i używanie narzędzi. Wyniki pokazały, że RL poprawiało dokładność w nowych zadaniach, jednocześnie utrzymując stabilną dokładność w poprzednich zadaniach. SFT natomiast, konsekwentnie poświęcało wcześniejszą wiedzę na rzecz wydajności w nowym zadaniu.

Robotyka: RL górą

Podobne wyniki uzyskano w eksperymentach z robotyką. Model OpenVLA-7B, dostrojony w scenariuszach „pick-and-place”, zachowywał ogólne umiejętności manipulacyjne, gdy był adaptowany za pomocą RL. SFT, choć skuteczne w nowym zadaniu, pogarszało wcześniejsze zdolności manipulacyjne.

ParityMNIST: analiza mechanizmów

Aby lepiej zrozumieć mechanizmy leżące u podstaw tego zjawiska, zespół badawczy wprowadził uproszczony problem – ParityMNIST. W tym przypadku zarówno RL, jak i SFT osiągnęły wysoką dokładność w nowym zadaniu, ale SFT powodowało większy spadek wydajności w pomocniczym benchmarku FashionMNIST. Co ważne, wykreślenie zapominania w funkcji dywergencji KL ujawniło pojedynczą krzywą predykcyjną, co potwierdza, że KL jest kluczowym czynnikiem.

Dlaczego aktualizacje on-policy mają znaczenie?

RL typu on-policy pobiera próbki z własnych wyników modelu, stopniowo zmieniając ich wagę w zależności od nagrody. Ten proces ogranicza uczenie się do rozkładów bliskich modelowi bazowemu. SFT natomiast optymalizuje względem ustalonych etykiet, które mogą być arbitralnie odległe. Teoretyczna analiza pokazuje, że gradienty polityki zbiegają się do rozwiązań optymalnych z minimalną dywergencją KL, co formalizuje przewagę RL.

Implikacje dla przyszłości AI

Badanie MIT redefiniuje 'katastroficzne zapominanie’, jako problem dystrybucyjny, którym rządzi dywergencja KL. Uczenie przez wzmacnianie zapomina mniej, ponieważ jego aktualizacje on-policy w naturalny sposób dążą do rozwiązań o minimalnej dywergencji KL. To odkrycie ma daleko idące konsekwencje dla rozwoju przyszłych systemów AI, otwierając drogę do hybrydowych metod łączących wydajność SFT z minimalizacją KL. W przyszłości, algorytmy powinny być oceniane nie tylko pod kątem dokładności w nowych zadaniach, ale również pod kątem tego, jak konserwatywnie przesuwają rozkłady w przestrzeni KL.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *