LLM

Nowa technika WeGeFT usprawnia nauczanie modeli językowych bez zwiększania mocy obliczeniowej

Wraz z dynamicznym rozwojem sztucznej inteligencji, duże modele językowe (LLM) stały się kluczowym elementem wielu zastosowań, od tworzenia treści po automatyzację obsługi klienta. Modele te, wstępnie trenowane na ogromnych zbiorach danych, potrafią przewidywać kolejne słowa, co pozwala im odpowiadać na złożone zapytania użytkowników. Niestety, ogólny charakter wstępnego treningu oznacza, że istnieje znaczne pole do optymalizacji, zwłaszcza gdy zadania stają się bardziej specyficzne, takie jak rozwiązywanie zadań matematycznych czy generowanie kodu programistycznego.

Kluczem do poprawy wydajności LLM w konkretnych zastosowaniach jest proces dostrajania (fine-tuning). Jednakże, z uwagi na gigantyczną skalę tych modeli, pełne przetrenowanie staje się niewykonalne. Zamiast tego, badacze dążą do znalezienia minimalnej liczby zmian, które przyniosą maksymalną poprawę. W tym kontekście, technologia LoRA (Low-Rank Adaptation), wprowadzona w 2022 roku, stanowiła istotny przełom. Polegała ona na identyfikacji niewielkiego podzbioru kluczowych parametrów, które najlepiej wpływają na wydajność modelu w nowym zadaniu.

Mimo sukcesu LoRA, wiele późniejszych prób udoskonalenia tej metody napotykało na problem: albo wymagały znacząco wyższej mocy obliczeniowej, albo nie przynosiły zauważalnej poprawy wydajności przy tej samej mocy. W obliczu tych wyzwań, zespół badaczy z North Carolina State University, pod kierownictwem Tianfu Wu, we współpracy z Chinmay Savadikarem i niezależnym badaczem Xi Songiem, opracował nowatorską technikę nazwaną WeGeFT (Weight-Generative Fine-Tuning).

WeGeFT bazuje na fundamentach LoRA, ale wprowadza zaawansowane narzędzia matematyczne, które pozwalają identyfikować, które z kluczowych parametrów model już zna, a które musi „nauczyć się” od nowa. Tianfu Wu podkreśla, że kluczową innowacją WeGeFT jest nadawanie większej wagi nowym parametrom, co pozwala na poprawę wydajności modelu w porównaniu do LoRA, bez wprowadzania znaczących nowych wymagań obliczeniowych.

W testach koncepcyjnych, WeGeFT wykazał równą lub lepszą wydajność niż LoRA i jej warianty w różnorodnych zadaniach, takich jak rozumowanie zdroworozsądkowe, rozumowanie arytmetyczne, podążanie za instrukcjami, generowanie kodu oraz rozpoznawanie wizualne. Wyniki te świadczą o znaczącym postępie w dziedzinie efektywnego dostrajania modeli.

Perspektywy zastosowania WeGeFT wykraczają poza dotychczasowe obszary. Jak zaznacza Wu, technika ta może znaleźć zastosowanie w identyfikacji elementów modelu odpowiedzialnych za generowanie szkodliwych lub niepożądanych treści. To otwiera drogę do poprawy zgodności działania AI z zamierzeniami twórców oraz do zwiększenia bezpieczeństwa i jakości generowanych przez modele wyników. Szczegóły dotyczące tej pracy mają zostać zaprezentowane podczas Międzynarodowej Konferencji Uczenia Maszynowego (ICML) w Vancouver.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *