BezpieczeństwoLLMR & D

Jak uchronić odchudzone modele AI przed niebezpiecznymi zachowaniami? Nowa metoda naukowców z UCR

W miarę jak generatywne modele AI opuszczają potężne serwery w chmurze i trafiają do smartfonów czy samochodów, poddawane są procesowi odchudzania, aby oszczędzać energię i moc obliczeniową. Często jednak ofiarą tego procesu padają mechanizmy zabezpieczające, które chronią nas przed mową nienawiści, dezinformacją czy instrukcjami dotyczącymi działalności przestępczej.

Na to wyzwanie odpowiadają badacze z University of California, Riverside (UCR), którzy opracowali metodę zachowania zabezpieczeń AI, nawet gdy otwarte modele AI są okrajane w celu uruchomienia na urządzeniach o niższej mocy. Ich praca została opublikowana na serwerze preprintów arXiv.

W przeciwieństwie do zastrzeżonych systemów AI, modele open-source mogą być pobierane, modyfikowane i uruchamiane offline przez każdego. Ich dostępność promuje innowacje i przejrzystość, ale stwarza również wyzwania, jeśli chodzi o nadzór. Bez infrastruktury chmurowej i stałego monitoringu dostępnego dla systemów zamkniętych, modele te są podatne na niewłaściwe użycie.

Zespół z UCR skupił się na kluczowym problemie: starannie zaprojektowane funkcje bezpieczeństwa erodują, gdy otwarte modele AI są zmniejszane. Dzieje się tak, ponieważ wdrożenia o niższej mocy często pomijają wewnętrzne warstwy przetwarzania, aby oszczędzać pamięć i moc obliczeniową. Pomijanie warstw poprawia szybkość i wydajność modeli, ale może również skutkować odpowiedziami zawierającymi pornografię lub szczegółowe instrukcje dotyczące wytwarzania broni.

„Okazuje się, że niektóre z pominiętych warstw są niezbędne do zapobiegania niebezpiecznym wynikom” – powiedział Amit Roy-Chowdhury, profesor elektrotechniki i inżynierii komputerowej oraz starszy autor badania. „Jeśli je pominiemy, model może zacząć odpowiadać na pytania, na które nie powinien”.

Rozwiązaniem zespołu było przeszkolenie wewnętrznej struktury modelu tak, aby jego zdolność do wykrywania i blokowania niebezpiecznych zapytań była zachowana, nawet po usunięciu kluczowych warstw. Ich podejście unika zewnętrznych filtrów lub łatek oprogramowania. Zamiast tego zmienia sposób, w jaki model rozumie ryzykowne treści na fundamentalnym poziomie.

„Naszym celem było upewnienie się, że model nie zapomni, jak zachowywać się bezpiecznie, gdy zostanie odchudzony” – powiedział Saketh Bachu, absolwent UCR i współautor badania.

Po przeszkoleniu model niezawodnie odmawiał udzielania odpowiedzi na niebezpieczne zapytania, nawet gdy był wdrażany z zaledwie ułamkiem swojej pierwotnej architektury.

„Nie chodzi o dodawanie filtrów lub zewnętrznych zabezpieczeń” – powiedział Bachu. „Zmieniamy wewnętrzne rozumienie modelu, więc domyślnie zachowuje się on dobrze, nawet gdy został zmodyfikowany”.

Bachu i współautor Erfan Shayegani opisują tę pracę jako „życzliwe hakowanie”, czyli sposób na wzmocnienie modeli, zanim luki zostaną wykorzystane. Ich ostatecznym celem jest opracowanie technik zapewniających bezpieczeństwo na każdej wewnętrznej warstwie, dzięki czemu AI będzie bardziej niezawodna w rzeczywistych warunkach.

Oprócz Roya-Chowdhury, Bachu i Shayegani, w zespole badawczym znaleźli się doktoranci Arindam Dutta, Rohit Lal i Trishna Chakraborty oraz wykładowcy UCR Chengyu Song, Yue Dong i Nael Abu-Ghazaleh. Ich praca została zaprezentowana w tym roku na Międzynarodowej Konferencji Uczenia Maszynowego w Vancouver w Kanadzie.

„Wciąż jest wiele do zrobienia” – powiedział Roy-Chowdhury. „Ale to konkretny krok w kierunku rozwoju AI w sposób otwarty i odpowiedzialny”

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *