Niewielka kontrola nad rozumowaniem AI: naukowcy ostrzegają przed nieprzewidywalnymi skutkami
Współczesne, zaawansowane systemy sztucznej inteligencji generują obawy ekspertów z branży, w tym naukowców z Google DeepMind, OpenAI, Meta i Anthropic. Zgodnie z ich najnowszymi ostrzeżeniami, niedostateczny nadzór nad procesami rozumowania i podejmowania decyzji przez AI może prowadzić do przeoczenia niebezpiecznych zachowań systemów, zanim te wyrządzą realne szkody.
W opublikowanych 15 lipca na serwerze arXiv (przed recenzją partnerską) badaniach, naukowcy zwracają uwagę na „łańcuchy myślowe” (Chains of Thought – CoT) – sekwencje operacji, które duże modele językowe (LLM) wykonują, aby rozwiązywać złożone problemy. Modele AI wykorzystują CoT do rozbijania skomplikowanych zapytań na pośrednie, logiczne kroki, które są wyrażane w języku naturalnym. Autorzy badania sugerują, że monitorowanie każdego etapu tego procesu mogłoby stanowić kluczowy element w zapewnieniu i utrzymaniu bezpieczeństwa AI. Zrozumienie, w jaki sposób i dlaczego LLM-y podejmują określone decyzje, a także dlaczego mogą odbiegać od ludzkich intencji, jest tu kluczowe. Pozwala to również na identyfikację przyczyn, dla których systemy generują fałszywe lub wprowadzające w błąd dane.
Niemniej jednak, monitorowanie tych procesów obarczone jest licznymi ograniczeniami. Naukowcy podkreślają, że choć systemy AI, które „myślą” w języku ludzkim, oferują unikalną możliwość wglądu w ich intencje, kontrola CoT, podobnie jak inne metody nadzoru, jest niedoskonała i dopuszcza, że pewne nieprawidłowości mogą pozostać niezauważone. Problematyczne jest również to, że rozumowanie nie zawsze zachodzi w sposób, który można monitorować, a w niektórych przypadkach może odbywać się bez wiedzy operatorów. Istnieje również ryzyko, że rozumowanie to będzie dla człowieka niezrozumiałe.
Modele nierozeznawcze, takie jak K-Means czy DBSCAN, opierają się na zaawansowanym dopasowywaniu wzorców na podstawie ogromnych zbiorów danych, nie wykorzystując CoT. Nowsze modele rozumujące, jak Google Gemini czy ChatGPT, są w stanie rozkładać problemy na etapy pośrednie, aby generować rozwiązania, choć nie zawsze muszą to robić, by uzyskać odpowiedź. Istnieje również brak gwarancji, że modele te, nawet jeśli wykonują takie etapy, ujawnią CoT użytkownikom. Naukowcy stwierdzają, że samo pojawienie się rozumowania w łańcuchu myślowym nie gwarantuje pełnej monitorowalności; inne istotne aspekty rozumowania mogą pozostać ukryte. Oznacza to, że nawet w trudnych zadaniach łańcuch myślowy może wydawać się nieszkodliwy, podczas gdy faktyczne, obciążające rozumowanie pozostaje niewidoczne.
Co więcej, istnieją obawy, że łańcuchy myślowe mogą stać się niezrozumiałe dla ludzi w miarę ewolucji bardziej zaawansowanych modeli LLM, które mogą dysponować innymi, niewyjaśnialnymi dla nas sposobami osiągania odpowiedzi. Jest też ryzyko, że przyszłe modele, świadome monitoringu CoT, będą potrafiły ukrywać niepożądane zachowania. Autorzy sugerują wprowadzenie szeregu środków w celu wzmocnienia monitoringu CoT i poprawy przejrzystości sztucznej inteligencji, w tym wykorzystanie innych modeli do oceny CoT LLM-ów, a nawet do działania w roli adwersarzy wobec modeli. Niestety, w pracy brakuje sprecyzowania, jak zagwarantować, by same modele monitorujące nie uległy dezekwilibracji.
Monitorowanie CoT stanowi cenną innowację w zakresie środków bezpieczeństwa dla systemów AI, oferując bezprecedensowy wgląd w procesy decyzyjne autonomicznych agentów. Autorzy badania apelują do społeczności naukowej oraz deweloperów AI, aby w pełni wykorzystali możliwości monitorowania CoT i prowadzili dalsze badania nad tym, jak można je utrzymać i rozwijać w obliczu rosnącej złożoności systemów AI.
