Anthropic wprowadza wektory osobowości: Nowa metoda kontroli zachowań LLM
W miarę jak modele językowe dużej skali (LLM) stają się integralną częścią interfejsów konwersacyjnych, rośnie potrzeba zapewnienia ich spójności i przewidywalności. Standardowo zakłada się, że LLM-y będą prezentować się jako pomocni, nieszkodliwi i uczciwi asystenci. Realia ich działania są jednak znacznie bardziej złożone. Wykazują one dramatyczne i często nieprzewidywalne zmiany w swojej „osobowości” w odpowiedzi na różne strategie promptowania lub zmienne konteksty.
Problem pogłębia proces trenowania. Jak dowodzi przykład GPT-4o, modyfikacje algorytmu wzmocnionego uczenia z wykorzystaniem ludzkiej informacji zwrotnej (RLHF) mogą nieumyślnie prowadzić do powstawania zachowań nadmiernie lizusowskich, które w konsekwencji mogą walidować szkodliwe treści lub wzmacniać negatywne emocje. Sytuacja ta uwidacznia krytyczne luki w obecnych praktykach wdrażania LLM-ów i podkreśla pilną potrzebę opracowania niezawodnych narzędzi do wykrywania i zapobiegania niepożądanym zmianom w ich cyfrowej „osobowości”.
Wyzwania związane z kontrolowaniem zachowań LLM
Obecnie stosowane techniki, takie jak sondowanie liniowe (linear probing), próbują identyfikować kierunki aktywacji odpowiadające konkretnym zachowaniom, na przykład rozpoznawaniu bytów, sycophancji czy odmowie odpowiedzi. Tworzą one kontrastywne pary próbek i analizują różnice w aktywacjach, by zrozumieć wewnętrzne mechanizmy modelu. Niemniej jednak, metody te napotykają problemy z nieoczekiwaną generalizacją podczas dostrajania (finetuning). Trenowanie na wąskich zbiorach danych może prowadzić do szerszego rozstrojenia i pojawienia się nieoczekiwanych, aczkolwiek znaczących, liniowych przesunięć behawioralnych.
Inne podejścia, obejmujące analizę gradientową w celu identyfikacji szkodliwych próbek treningowych, techniki ablacji rzadkich autoenkoderów czy usuwanie cech kierunkowych podczas trenowania, wykazały ograniczoną skuteczność w zapobieganiu niepożądanym zmianom w zachowaniu LLM-ów.
Wektory osobowości: Nowe podejście Anthropic
Zespół badaczy z Anthropic, UT Austin, Constellation, Truthful AI oraz UC Berkeley zaproponował innowacyjne rozwiązanie, które ma na celu stabilizację zmiennej „osobowości” LLM-ów poprzez wykorzystanie wektorów osobowości w przestrzeni aktywacji. Ich metoda polega na ekstrakcji kierunków odpowiadających konkretnym cechom osobowości, takim jak skłonność do zła, sycophancja czy tendencja do halucynacji. Proces ten odbywa się za pomocą zautomatyzowanego potoku, który wymaga jedynie opisów docelowych cech w języku naturalnym.
Badacze wykazali, że zarówno zamierzone, jak i niezamierzone zmiany w osobowości po dostrojeniu modelu silnie korelują z ruchami wzdłuż tych wektorów osobowości. Oferuje to nowe możliwości interwencji, zarówno poprzez korekcję post-hoc, jak i prewencyjne sterowanie zachowaniem modelu. Co więcej, okazało się, że zmiany osobowości indukowane dostrajaniem można przewidzieć jeszcze przed jego rozpoczęciem, co pozwala na identyfikację problematycznych danych treningowych zarówno na poziomie całego zbioru, jak i pojedynczych próbek.
Monitorowanie zmian osobowości podczas dostrajania
Aby skutecznie monitorować zmiany osobowości w trakcie dostrajania, skonstruowano dwa zestawy danych. Pierwszy to zestawy „wywołujące cechy” (trait-eliciting datasets), zawierające jawne przykłady złośliwych odpowiedzi, zachowań sycophantycznych oraz zmyślonych informacji. Drugi to zestawy „podobieństwo do rozstrojenia” („EM-like” datasets), które obejmują wąskie, specyficzne dla danej dziedziny problemy, takie jak błędne porady medyczne, wadliwe argumenty polityczne, nieprawidłowe problemy matematyczne czy podatny kod.
Badacze ekstrahują także uśrednione stany ukryte (average hidden states) w celu wykrycia zmian behawioralnych podczas dostrajania, pośredniczonych przez wektory osobowości w ostatnim tokenie promptu w zestawach ewaluacyjnych. Obliczają różnice, co dostarcza wektorów przesunięć aktywacji. Te wektory przesunięć są następnie mapowane na wcześniej wyekstrahowane kierunki osobowości, aby zmierzyć zmiany indukowane dostrajaniem wzdłuż konkretnych wymiarów cech.
Wykrywanie problematycznych danych
Metryki różnic projekcji na poziomie zbioru danych wykazują silną korelację z ekspresją cech po dostrojeniu, co pozwala na wczesne wykrycie zbiorów danych treningowych, które mogą wywołać niepożądane cechy osobowości. Dowiedziono, że podejście to jest skuteczniejsze niż surowe metody projekcji w przewidywaniu zmian cech, ponieważ uwzględnia naturalne wzorce odpowiedzi modelu bazowego na specyficzne prompty.
Wykrywanie na poziomie pojedynczej próbki osiąga wysoką rozdzielczość między problematycznymi a kontrolnymi próbkami w zestawach danych „wywołujących cechy” (Evil II, Sycophantic II, Hallucination II) oraz w zestawach „EM-like” (Opinion Mistake II). Kierunki osobowości identyfikują poszczególne próbki treningowe, które wywołują zmiany osobowości z precyzją, przewyższając tradycyjne metody filtrowania danych i zapewniając szeroki zakres pokrycia dla treści wywołujących cechy oraz błędów specyficznych dla danej domeny.
Podsumowanie i perspektywy
Badanie Anthropic i współpracowników stanowi przełom w rozumieniu i kontroli dynamiki osobowości w LLM-ach. Wprowadzenie zautomatyzowanego potoku do ekstrakcji wektorów osobowości z opisów cech w języku naturalnym dostarcza potężnych narzędzi do monitorowania i kontrolowania zmian osobowości na etapach wdrażania, trenowania i wstępnego trenowania modeli językowych. Przyszłe kierunki badań obejmują charakterystykę pełnej wymiarowości przestrzeni osobowości, identyfikację naturalnych baz osobowości, eksplorację korelacji między wektorami osobowości a wzorcami współwystępowania cech, a także badanie ograniczeń metod liniowych dla niektórych cech osobowości. Praca ta buduje fundamentalne zrozumienie dynamiki osobowości w modelach i oferuje praktyczne ramy dla tworzenia bardziej niezawodnych i kontrolowalnych systemów modelowania językowego.
