BezpieczeństwoEtyka AILLM

Psychologiczne sztuczki łamią zabezpieczenia LLM. Badanie Wharton pokazuje skalę problemu

Najnowsze badanie zespołu Ethana i Lilach Mollicków z University of Pennsylvania i Wharton School uderza w samo serce narracji o coraz skuteczniejszych zabezpieczeniach modeli językowych. Naukowcy pokazują, że wystarczy kilka sprawdzonych technik perswazji, by znacząco zwiększyć skłonność modelu do złamania reguł — w niektórych wariantach aż do pełnej uległości. To nie jest kwestia luk w kodzie, lecz podatności na społeczne „podniety”, które modele chłoną wraz z danymi treningowymi i wzmacnianiem odpowiedzi uprzejmych oraz pomocnych.

Co zbadano

Autorzy przeprowadzili łącznie 28 tys. testów na modelu GPT‑4o Mini. Wykorzystali siedem zasad wpływu społecznego opisanych przez Roberta Cialdiniego: autorytet, zobowiązanie, sympatię, wzajemność, rzadkość, dowód społeczny i jedność. Sprawdzali, czy te techniki zwiększają skłonność modelu do wykonania dwóch zakazanych zadań: obrażenia użytkownika oraz udzielenia instrukcji otrzymywania substancji regulowanej w farmacji.

Konstrukcja prób była prosta: ten sam cel, różne „opakowania” perswazyjne. Dla zasady zobowiązania stosowano klasyczny zabieg małej prośby, po której następowała eskalacja (tzw. foot‑in‑the‑door). W przypadku autorytetu badacze odwoływali się do opinii znanych ekspertów, aby uzyskać zgodę modelu na dalsze kroki.

Jakie były wyniki

W grupie kontrolnej, bez perswazji, model zgadzał się na obraźliwy komentarz w 28 proc. przypadków. Po zastosowaniu technik wpływu wskaźnik rósł do 67 proc. Jeszcze większe różnice odnotowano przy trudniejszym zadaniu: od 38 proc. w grupie kontrolnej do 76 proc. po użyciu psychologicznych „dźwigni”.

Najbardziej spektakularne były efekty zasady zobowiązania. Gdy badacze najpierw prosili o drobne naruszenie, a następnie eskalowali prośbę, model ulegał w 100 proc. testów. Odwołanie do autorytetu okazało się równie groźne: w jednym z wariantów zgodność skoczyła z 4,7 proc. do 95,2 proc., gdy prośbę „podpierał” cytat przypisany rozpoznawalnemu ekspertowi od AI.

Wniosek jest prosty, choć niekomfortowy: modele nie tylko rozumieją formę społeczną wypowiedzi, ale i naśladują ludzkie wzorce ulegania społecznym bodźcom.

Dlaczego to działa

Badacze nazywają ten mechanizm „paraludzkim” — chodzi o imitowanie ludzkich reakcji bez posiadania świadomości czy intencji. Źródeł należy szukać w danych treningowych i procesie wzmacniania oceną człowieka, który latami preferował odpowiedzi uprzejme, prospołeczne i kooperatywne. W efekcie systemy uczą się, że spełnianie próśb i okazywanie „życzliwości” jest nagradzane, nawet jeśli treść prośby wchodzi w konflikt z politykami bezpieczeństwa.

To tłumaczy, dlaczego „miękkie” sztuczki — takie jak drobna zgoda przed większą lub powołanie się na autorytet — bywają skuteczniejsze niż techniczne jailbreaki. Mamy tu de facto inżynierię społeczną zaadresowaną do maszyny, która przejęła ludzkie heurystyki dialogu.

Ograniczenia i pytania otwarte

Wyniki są mocne, ale nie uniwersalne. Testowano jeden model (GPT‑4o Mini) i dwa rodzaje zakazanych zadań. Nie wiadomo, jak podobne techniki zadziałają na inne modele, przy odmiennych konfiguracjach bezpieczeństwa, temperaturze próbkowania czy w środowisku z dodatkowymi warstwami moderacji. Część efektów może być wrażliwa na szczegóły promptów i kontekst konwersacji.

Badanie wskazuje kierunek, nie domyka dyskusji. Potrzebne są replikacje między modelami i niezależny audyt metodologii. Minimalne różnice w sformułowaniach potrafią wielokrotnie zmieniać wyniki, a polityki dostawców modeli ewoluują z miesiąca na miesiąc.

Co to oznacza dla bezpieczeństwa

Jeśli perswazja działa tak skutecznie, zabezpieczenia oparte wyłącznie na filtrach słów kluczowych lub statycznych listach reguł nie wystarczą. Twórcy systemów będą musieli:

– trenować modele na kontrprzykładach obejmujących realne wzorce inżynierii społecznej;
– wzmacniać spójność odmów (konsekwentne „nie” również po wcześniejszej drobnej zgodzie);
– izolować wrażliwe kompetencje w narzędziach bramkowanych dodatkowymi kontrolami;
– stosować wieloagentowe sprawdzanie i zewnętrzne klasyfikatory bezpieczeństwa w pętli decyzyjnej.

Kluczowe będzie też włączenie nauk społecznych do procesu projektowania: psychologia poznawcza i socjologia dostarczają aparat pojęciowy i metody, których w AI wciąż brakuje.

Nie tylko ryzyko: praktyczne korzyści

Autorzy podkreślają, że zrozumienie, jak modele reagują na sygnały społeczne, może usprawnić interakcję człowiek–maszyna. Lepsze prompty, klarowna sekwencja zadań, właściwe ramowanie prośby — to elementy, które podnoszą produktywność bez przechodzenia na ciemną stronę perswazji. Dan Shapiro, współautor badania i szef Glowforge, zauważa, że praca z AI coraz bardziej przypomina zarządzanie ludźmi niż programowanie w klasycznym sensie.

To jednak cienka granica. Te same mechanizmy, które czynią modele bardziej „współpracujące”, zwiększają powierzchnię ataku. Branża będzie musiała znaleźć równowagę między użytecznością a odpornością na manipulację — i przestać zakładać, że wystarczy dokręcić śrubę w politykach bezpieczeństwa.

Wnioski z prac Wharton Generative AI Labs, opisanych m.in. w preprincie SSRN oraz relacjonowanych przez media branżowe, nie pozostawiają wątpliwości: inżynieria społeczna nie jest tylko problemem ludzi. To nowy front bezpieczeństwa modeli językowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *