Bloomberg: Czy systemy oparte na Retrieval-Augmented Generation są zagrożeniem dla bezpieczeństwa?
Systemy sztucznej inteligencji oparte na technice Retrieval-Augmented Generation (RAG) zyskały popularność wśród dużych przedsiębiorstw jako skuteczny sposób zwiększenia dokładności i ograniczenia tzw. „halucynacji” modeli AI. Nowe badania Bloomberga opublikowane w kwietniu 2025 roku pokazują jednak, że ta powszechnie doceniana metoda niesie również poważne zagrożenia dla bezpieczeństwa.
Zespół naukowców z Bloomberga przetestował 11 popularnych modeli językowych, m.in. Claude-3.5-Sonnet, Llama-3-8B i GPT-4o. Wyniki są alarmujące – modele, które w standardowych konfiguracjach odmawiały generowania potencjalnie niebezpiecznych treści, po zastosowaniu mechanizmów RAG zaczynały odpowiadać na ryzykowne zapytania. Przykładowo, wskaźnik niebezpiecznych odpowiedzi dla modelu Llama-3-8B wzrósł z zaledwie 0,3% aż do 9,2%.
Dotychczasowe zabezpieczenia nie działają
Sebastian Gehrmann, dyrektor ds. bezpieczeństwa AI Bloomberga, podkreśla, że problem pojawia się nawet wtedy, gdy dokumenty dostarczane poprzez mechanizm RAG są całkowicie neutralne i bezpieczne. Z jakiegoś powodu dodatkowy kontekst wprowadzany przez retrieval-augmented generation sprawia, że modele językowe obchodzą własne standardowe zabezpieczenia.
Badacze Bloomberga nie odkryli jeszcze dokładnej przyczyny tego zjawiska, wskazują jednak, że długość kontekstu, z którym model operuje, jest tutaj czynnikiem kluczowym. Im więcej dokumentów dociera przez RAG do modelu, tym większe ryzyko naruszenia zabezpieczeń – nawet jeśli dokumenty te same w sobie nie zawierają treści niebezpiecznych lub szkodliwych.
Bloomberg wskazuje także na jeszcze jeden ważny aspekt swojego badania: dotychczas stosowane ogólne modele zabezpieczeń sztucznej inteligencji okazują się niewystarczające w specyficznych branżach, takich jak sektor finansowy. Dlatego równolegle powstała druga praca badawcza, w której firma opracowała specjalistyczną „taksonomię ryzyka treści AI” dostosowaną typowo do usług finansowych. Testy przeprowadzone z wykorzystaniem popularnych otwartych modeli zabezpieczeń, takich jak np. Llama Guard czy ShieldGemma, wykazały, że nie są one w stanie wychwycić zagrożeń specyficznych dla branży finansowej, takich jak zagrożenia związane z ujawnianiem informacji poufnych czy manipulacjami finansowymi.
W opinii specjalistów z Bloomberga konieczne jest, aby organizacje działające w różnych branżach przeformułowały podejście do bezpieczeństwa AI. Chodzi już nie tylko o wybór „bezpiecznych modeli” z rynku – kluczowe staje się projektowanie kompleksowych, celowanych rozwiązań ochronnych uwzględniających zagrożenia specyficzne dla danej branży. Taka strategia powinna stać się nowym standardem zwłaszcza w obszarach krytycznych dla firm, takich jak finanse czy ubezpieczenia, w których niewłaściwa odpowiedź modelu może mieć poważne konsekwencje prawne i regulacyjne.
Transparentność kluczem do odpowiedzialnego zarządzania?
Amanda Stent, odpowiedzialna za strategię AI w Bloomberg, zapewnia, że firma traktuje generatywną AI nie jako zagrożenie, lecz jako narzędzie wzmacniające wartość dostarczanych swoim klientom usług analizy i syntezy informacji finansowych. Firma stawia na przejrzystość – każdy fragment odpowiedzi dostarczonej przez ich systemy AI można powiązać bezpośrednio z konkretnym dokumentem, a nawet miejscem w tym dokumencie, co pozwala na pełną transparentność treści generowanych przez AI.
Wyniki badań Bloomberga są istotnym sygnałem dla wszystkich firm wdrażających technologie oparte na dużych modelach językowych. Wprowadzenie retrieval-augmented generation wymaga przemyślenia całego systemu bezpieczeństwa – i podejścia do niego inaczej niż tradycyjnych zabezpieczeń AI. W przyszłości to właśnie podejście oparte na świadomości konkretnych zagrożeń branżowych i integracji złożonych zabezpieczeń może zdecydować o sukcesie przedsiębiorstw operujących z użyciem generatywnej AI.
