LLMR & DRozumowanie

Przełom w rozumowaniu modeli językowych: Trening w czasie testu sześciokrotnie zwiększa dokładność LLM-ów

Duże modele językowe (LLM), mimo imponujących możliwości, często napotykają trudności, gdy stają przed nowymi, wymagającymi zadaniami, które wymagają skomplikowanego rozumowania. Model wyszkolony do podsumowywania raportów finansowych może zawieść w przewidywaniu trendów rynkowych czy identyfikowaniu oszustw. W odpowiedzi na tę lukę, naukowcy z Massachusetts Institute of Technology (MIT) przedstawili nowatorskie podejście, które może znacząco poprawić elastyczność i dokładność tych systemów.

Ich badania wykazały, że zastosowanie techniki zwanej „treningiem w czasie testu” (test-time training) doprowadziło do sześciokrotnego wzrostu dokładności modeli w rozwiązywaniu złożonych problemów. Jest to metoda polegająca na tymczasowym aktualizowaniu wewnętrznych parametrów modelu podczas samego procesu jego użytkowania, czyli w momencie, gdy wykonuje on konkretne zadanie.

Jak wyjaśnia Ekin Akyürek, główny autor badania: „Prawdziwa nauka – to, co osiągnęliśmy dzięki treningowi w czasie testu – jest czymś, czego te modele nie potrafią samodzielnie po uruchomieniu. Nie mogą zdobywać nowych umiejętności ani poprawiać się w zadaniach. Ale pokazaliśmy, że jeśli trochę popchnie się model w kierunku rzeczywistej nauki, można zaobserwować ogromne poprawy wydajności.”

Metoda w parze z dotychczasowymi technikami

Dotychczas użytkownicy LLM-ów często próbowali poprawić ich działanie w nowych zadaniach, stosując „uczenie w kontekście” (in-context learning). Polega to na dostarczaniu modelowi kilku przykładów nowego zadania w formie podpowiedzi tekstowych. Jednak ta metoda okazuje się niewystarczająca w przypadku problemów wymagających głębokiej logiki i rozumowania.

Naukowcy z MIT zbadali, w jaki sposób trening w czasie testu może współpracować z uczeniem w kontekście, aby zwiększyć wydajność w tych wymagających obszarach. Test-time training polega na aktualizowaniu niewielkiej liczby parametrów modelu przy użyciu niewielkiej ilości nowych danych specyficznych dla danego zadania. Jak zauważa Mehul Damani, współautor badania: „Odkrywamy, że trening w czasie testu to znacznie silniejsza forma uczenia się. Podczas gdy samo dostarczanie przykładów może umiarkowanie zwiększyć dokładność, faktyczna aktualizacja modelu za pomocą tych przykładów może prowadzić do znacznie lepszej wydajności, szczególnie w trudnych dziedzinach.”

Proces obejmuje tworzenie zestawu danych specyficznych dla zadania, rozszerzanie go poprzez subtelne modyfikacje przykładów, a następnie trenowanie modelu na wynikach tego nowego zestawu. Kluczowym elementem jest również zastosowanie techniki niskorangowej adaptacji (low-rank adaption), która pozwala na efektywną aktualizację tylko niewielkiej liczby parametrów, co znacznie usprawnia proces.

Wyzwania i przyszłość

Choć efektywny, trening w czasie testu wiąże się z pewnymi kosztami. Aktualizacje modelu są tylko tymczasowe – po wykonaniu zadania model wraca do swojego pierwotnego stanu. Ponadto, chociaż typowe zapytanie do LLM-a zajmuje mniej niż minutę, zastosowanie nowej metody może wydłużyć ten czas do pięciu, a nawet dziesięciu minut. „Nie chcielibyśmy tego robić dla wszystkich zapytań użytkowników, ale jest to bardzo użyteczne, jeśli masz bardzo trudne zadanie, które chcesz, aby model dobrze rozwiązał” – komentuje Akyürek.

Naukowcy przetestowali swoje podejście na dwóch zbiorach danych z niezwykle złożonymi problemami, takimi jak zagadki IQ. Wyniki były zdumiewające, wykazując nawet sześciokrotny wzrost dokładności w porównaniu z technikami opartymi wyłącznie na uczeniu w kontekście. Szczególnie duże poprawy zaobserwowano w zadaniach, które wymagały identyfikacji wzorców lub operowały na zupełnie nieznanych typach danych.

W przyszłości badacze intendują wykorzystać te spostrzeżenia do rozwoju modeli, które będą się uczyć w sposób ciągły. Długoterminowym celem jest stworzenie LLM-a, który po otrzymaniu zapytania będzie w stanie automatycznie ocenić, czy potrzebuje treningu w czasie testu, czy też może rozwiązać zadanie za pomocą uczenia w kontekście, a następnie samodzielnie wdrożyć najskuteczniejszą strategię bez interwencji człowieka. Badanie zostanie zaprezentowane na Międzynarodowej Konferencji Uczenia Maszynowego (ICML 2025) w Vancouver.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *