Cyberbezpieczeństwo

Nowy atak CAMIA obnaża luki w prywatności modeli AI. Czy sztuczna inteligencja zapamiętuje twoje dane?

W świecie sztucznej inteligencji rośnie obawa związana z tzw. „memorowaniem danych”. Modele AI, trenowane na ogromnych zbiorach danych, mogą mimowolnie przechowywać i potencjalnie ujawniać wrażliwe informacje. Wyobraźmy sobie model wytrenowany na notatkach medycznych – istnieje ryzyko ujawnienia poufnych danych pacjentów. W biznesie sytuacja jest równie poważna – jeśli do treningu wykorzystano wewnętrzną korespondencję firmy, atakujący może nakłonić model językowy do odtworzenia prywatnych wiadomości.

Niedawne zapowiedzi LinkedIn, dotyczące wykorzystania danych użytkowników do ulepszania modeli generatywnej AI, tylko podsyciły obawy o prywatność. Czy prywatne treści mogą nagle wypłynąć w generowanym tekście?

Eksperci od bezpieczeństwa wykorzystują ataki Membership Inference Attacks (MIA), aby sprawdzić, czy dochodzi do wycieków danych. MIA zadaje modelowi kluczowe pytanie: „Czy widziałeś ten przykład podczas treningu?”. Jeśli atakujący może wiarygodnie ustalić odpowiedź, oznacza to, że model ujawnia informacje o danych, na których był trenowany, co stanowi bezpośrednie zagrożenie dla prywatności.

Idea jest prosta: modele często zachowują się inaczej, przetwarzając dane, które widziały podczas treningu, w porównaniu z nowymi, nieznanymi danymi. MIA mają na celu systematyczne wykorzystywanie tych różnic.

Dotychczas większość ataków MIA była nieskuteczna wobec nowoczesnych modeli generatywnych AI. Wynika to z faktu, że pierwotnie zostały zaprojektowane dla prostszych modeli klasyfikacyjnych, które dają pojedynczy wynik na wejściu. Modele LLM generują jednak tekst token po tokenie, a na każde nowe słowo wpływają słowa, które pojawiły się wcześniej. Oznacza to, że samo patrzenie na ogólną pewność dla bloku tekstu pomija dynamikę moment po momencie, w której faktycznie dochodzi do wycieku.

Kluczowym spostrzeżeniem stojącym za nowym atakiem CAMIA jest to, że pamięć modelu AI zależy od kontekstu. Model AI polega na zapamiętywaniu najbardziej wtedy, gdy nie jest pewien, co powiedzieć dalej.

CAMIA to pierwszy atak na prywatność, który został specjalnie dostosowany do wykorzystania generatywnego charakteru nowoczesnych modeli AI. Śledzi, jak zmienia się niepewność modelu podczas generowania tekstu, co pozwala mierzyć, jak szybko AI przechodzi od „zgadywania” do „pewnego przypominania sobie”. Działając na poziomie tokenów, może dostosować się do sytuacji, w których niska niepewność jest spowodowana prostym powtarzaniem, i może identyfikować subtelne wzorce prawdziwego zapamiętywania, które inne metody pomijają.

Badacze przetestowali CAMIA na benchmarku MIMIR na kilku modelach Pythia i GPT-Neo. Atakując model Pythia o parametrach 2.8B na zbiorze danych ArXiv, CAMIA prawie podwoił dokładność wykrywania w porównaniu z wcześniejszymi metodami. Zwiększył współczynnik prawdziwie pozytywnych wyników z 20.11% do 32.00%, przy jednoczesnym utrzymaniu bardzo niskiego współczynnika fałszywie pozytywnych wyników, wynoszącego zaledwie 1%.

Stworzone narzędzie jest również wydajne obliczeniowo. Na pojedynczym GPU A100, CAMIA może przetworzyć 1000 próbek w około 38 minut, co czyni go praktycznym narzędziem do audytu modeli. Praca ta przypomina branży AI o ryzyku związanym z prywatnością podczas trenowania coraz większych modeli na ogromnych, niefiltrowanych zbiorach danych. Naukowcy mają nadzieję, że ich praca pobudzi rozwój technik ochrony prywatności i przyczyni się do ciągłych wysiłków na rzecz zrównoważenia użyteczności AI z podstawową prywatnością użytkowników.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *