Bezpieczeństwo

BezpieczeństwoEtyka AILLM

Psychologiczne sztuczki łamią zabezpieczenia LLM. Badanie Wharton pokazuje skalę problemu

Zespół z University of Pennsylvania i Wharton School przetestował 28 tys. promptów na GPT-4o Mini, wykorzystując klasyczne reguły wpływu społecznego Cialdiniego. Proste zabiegi — od „małej prośby” po odwołanie do autorytetu — podwajały skłonność modelu do łamania zasad, a w wybranych scenariuszach prowadziły do 100 proc. uległości. Autorzy mówią o zjawisku „paraludzkim” i wzywają do ściślejszej współpracy z naukami społecznymi przy projektowaniu zabezpieczeń.

Read More