Nowe narzędzie z MIT pomoże optymalizować trening dużych modeli językowych
Sztuczna inteligencja, a w szczególności duże modele językowe (LLM), wymagają ogromnych nakładów obliczeniowych i finansowych. Trening pojedynczego modelu może kosztować miliony dolarów, dlatego kluczowe jest podejmowanie odpowiednich decyzji dotyczących architektury modelu, optymalizatorów i zbiorów danych treningowych jeszcze przed rozpoczęciem właściwego treningu.
Aby przewidzieć jakość i dokładność prognoz dużego modelu, wykorzystuje się prawa skalowania. Polegają one na użyciu mniejszych, tańszych modeli do przybliżenia wydajności znacznie większego modelu docelowego. Dotychczas jednak istniały tysiące sposobów tworzenia praw skalowania, co stanowiło wyzwanie dla badaczy i inżynierów.
Nowe badania naukowców z MIT i MIT-IBM Watson AI Lab rozwiązują ten problem. Stworzyli oni zbiór danych zawierający setki modeli i metryk dotyczących treningu i wydajności, co pozwoliło na aproksymację ponad tysiąca praw skalowania. Na tej podstawie zespół opracował metaanalizę i przewodnik po wyborze małych modeli i szacowaniu praw skalowania dla różnych rodzin modeli LLM. Ma to na celu optymalne wykorzystanie budżetu na generowanie wiarygodnych prognoz wydajności.
„Pomysł budowania modeli matematycznych procesu treningowego ma już kilka lat, ale nowością w naszym podejściu jest to, że większość wcześniejszych prac koncentrowała się na analizie post-hoc tego, co się stało po wytrenowaniu wszystkich modeli” – mówi Jacob Andreas, profesor nadzwyczajny w Katedrze Elektrotechniki i Informatyki oraz główny badacz w MIT-IBM Watson AI Lab. „My staramy się spojrzeć na to z perspektywy podejmowania optymalnych decyzji o tym, jak wykorzystać nasz budżet obliczeniowy jeszcze przed rozpoczęciem treningu nowego, dużego modelu.”
Ekstrapolacja wydajności
Opracowywanie LLM jest kosztownym przedsięwzięciem, obejmującym decyzje dotyczące liczby parametrów i tokenów, wyboru i rozmiaru danych, technik treningowych oraz dostrajania do docelowych aplikacji i zadań. Prawa skalowania oferują sposób na prognozowanie zachowania modelu poprzez powiązanie straty dużego modelu z wydajnością mniejszych, mniej kosztownych modeli z tej samej rodziny. Pozwala to uniknąć konieczności pełnego trenowania każdego kandydata. Zasadniczo różnice między mniejszymi modelami sprowadzają się do liczby parametrów i rozmiaru treningowego tokena.
Leshem Choshen twierdzi, że wyjaśnienie praw skalowania nie tylko umożliwia lepsze decyzje poprzedzające trening, ale także demokratyzuje dziedzinę, umożliwiając badaczom bez ogromnych zasobów zrozumienie i budowanie skutecznych praw skalowania.
Funkcjonalna forma praw skalowania jest stosunkowo prosta i uwzględnia liczbę parametrów, ich wpływ na skalowanie, liczbę tokenów treningowych i ich wpływ na skalowanie oraz bazową wydajność dla danej rodziny modeli. Pomagają one badaczom oszacować stratę wydajności docelowego dużego modelu. Im mniejsza strata, tym lepsze wyniki prawdopodobnie wygeneruje model docelowy. Prawa te pozwalają zespołom badawczym skutecznie rozważać kompromisy i testować najlepsze sposoby alokacji ograniczonych zasobów. Są szczególnie przydatne do oceny skalowania określonej zmiennej, takiej jak liczba tokenów, oraz do testowania A/B różnych konfiguracji wstępnego treningu.
Same prawa skalowania nie są nowością, jednak w dziedzinie sztucznej inteligencji zyskały na znaczeniu wraz ze wzrostem modeli i gwałtownym wzrostem kosztów.