LLM

FEEDER: Przełom w selekcji danych dla dużych modeli językowych

W obszarze sztucznej inteligencji, a zwłaszcza dużych modeli językowych (LLM), efektywność uczenia się w kontekście (In-Context Learning – ICL), znana również jako few-shot inference, stanowi klucz do ich imponujących możliwości. Wyzwaniem pozostaje jednak dobór najbardziej reprezentatywnych przykładów, tzw. demonstracji, z obszernych zbiorów danych treningowych. Tradycyjne metody opierały się na prostych pomiarach podobieństwa, podczas gdy nowsze rozwinięcia wprowadziły bardziej złożone reguły selekcji, co niestety często prowadziło do znacznego wzrostu obciążenia obliczeniowego, zwłaszcza przy zwiększającej się liczbie demonstracji.

Dodatkowym aspektem, często pomijanym w dotychczasowych podejściach, jest zróżnicowanie możliwości i obszarów wiedzy poszczególnych modeli LLM. Oznacza to, że skuteczność wybranych demonstracji powinna być dostosowana do konkretnego modelu, z którym pracujemy.

W odpowiedzi na te wyzwania, interdyscyplinarny zespół badaczy z tak prestiżowych instytucji jak Shanghai Jiao Tong University, Carnegie Mellon University, Peking University, University College London oraz University of Bristol, we współpracy z firmą Xiaohongshu Inc., zaprezentował przełomowe rozwiązanie: FEEDER (FEw yet Essential Demonstration prE-selectoR). Jest to innowacyjna metoda wstępnej selekcji demonstracji, która identyfikuje rdzeń najbardziej reprezentatywnych przykładów z danych treningowych, uwzględniając przy tym specyfikę konkretnych LLM.

Kluczem do działania FEEDER jest wprowadzenie w fazie wstępnej selekcji unikalnych metryk „wystarczalności” i „konieczności”, wspomaganych przez algorytm oparty na drzewach decyzyjnych. Dzięki temu podejściu, FEEDER jest w stanie zredukować rozmiar danych treningowych nawet o 20% przy jednoczesnym zachowaniu, a często nawet poprawie, poziomu wydajności. Co więcej, rozwiązanie to wyróżnia się łatwością integracji z różnymi technikami selekcji demonstracji w ramach ICL, obejmując modele LLM o rozpiętości parametrów od 300 milionów do 8 miliardów.

Potencjał FEEDER został potwierdzony w szeroko zakrojonych testach, obejmujących sześć zbiorów danych do klasyfikacji tekstu (SST-2, SST-5, COLA, TREC, SUBJ, FPB) oraz zbiory do rozumowania (GSM8K), analizy semantycznej (SMCALFlow) i odpowiedzi na pytania naukowe (GPQA). Do oceny wydajności metody wykorzystano różne warianty LLM, w tym GPT-2, GPT-Neo (1.3B), GPT-3 (6B), Gemma-2 (2B), Llama-2 (7B), Llama-3 (8B) oraz Qwen-2.5 (32B).

Wyniki są obiecujące: FEEDER pozwala zachować niemal połowę próbek treningowych, osiągając przy tym porównywalną lub lepszą wydajność. Co imponujące, w przypadku złożonych zadań, gdzie LLM często napotykają trudności, FEEDER poprawia ich wydajność. System efektywnie radzi sobie również z dużą liczbą demonstracji, eliminując problem spadku wydajności modeli, który często występuje, gdy liczba przykładów zwiększa się z pięciu do dziesięciu z powodu szumu lub powtórzeń w danych. Analiza wystarczalności i konieczności każdej demonstracji minimalizuje negatywny wpływ na wydajność LLM i przyczynia się do stabilności ich działania.

W kontekście optymalizacji dwupoziomowej, FEEDER wykazuje znaczną poprawę wydajności poprzez wykorzystanie mniejszych, lecz wysokiej jakości zbiorów danych do dostrajania modeli. Jest to zgodne z zasadą selekcji zbiorów rdzeniowych i jednocześnie znacząco redukuje koszty obliczeniowe. Co istotne, wstępne wyniki sugerują, że fine-tuning LLM zapewnia większe korzyści wydajnościowe niż samo rozszerzanie modeli o konteksty, a FEEDER w tych ustawieniach osiąga jeszcze lepsze rezultaty.

Analiza wydajności wykazała również, że efektywność FEEDER początkowo wzrasta, a następnie maleje wraz ze zwiększającą się liczbą uruchomień (R i K), co potwierdza, że identyfikacja reprezentatywnych podzbiorów z danych treningowych poprawia wydajność LLM. Niemniej jednak, zbyt wąskie podzbiory mogą ograniczać potencjalne zyski.

W podsumowaniu, zespół badawczy wprowadził FEEDER jako pre-selektor demonstracji zaprojektowany tak, aby z pełnym wykorzystaniem zdolności i wiedzy domenowej LLM, efektywnie identyfikować wysokiej jakości demonstracje. To rozwiązanie nie tylko obniża wymagania dotyczące danych treningowych, ale także utrzymuje porównywalną wydajność, oferując praktyczne narzędzie do efektywnego wdrażania LLM. Dalsze badania obejmą zastosowanie FEEDER w większych modelach LLM oraz rozszerzenie jego możliwości na obszary takie jak bezpieczeństwo danych i zarządzanie danymi. FEEDER stanowi ważny wkład w dziedzinę selekcji demonstracji, dostarczając badaczom i praktykom skuteczne narzędzie do optymalizacji wydajności LLM przy jednoczesnym zmniejszeniu obciążenia obliczeniowego.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *