BezpieczeństwoR & D

Współzałożyciel OpenAI apeluje o testowanie bezpieczeństwa modeli AI przez konkurencyjne laboratoria

W obliczu rosnącej roli sztucznej inteligencji w codziennym życiu milionów ludzi, Wojciech Zaremba z OpenAI apeluje o ustanowienie standardów bezpieczeństwa i o szerszą współpracę między wiodącymi laboratoriami AI. Jego zdaniem, branża musi znaleźć sposób na kooperację, pomimo miliardowych inwestycji i walki o talenty oraz użytkowników. Apel ten zbiega się z publikacją wyników wspólnych testów bezpieczeństwa przeprowadzonych przez OpenAI i Anthropic, które ujawniły zaskakujące różnice w zachowaniu ich modeli.

Rzadka współpraca na froncie AI

OpenAI i Anthropic, dwaj giganci w dziedzinie AI, zdecydowali się na bezprecedensowy krok – udostępnienie swoich modeli do wzajemnych testów bezpieczeństwa. Celem tej inicjatywy było zidentyfikowanie słabych punktów w wewnętrznych ocenach każdej z firm i zademonstrowanie, jak liderzy branży mogą współpracować w kwestiach bezpieczeństwa i zgodności AI z wartościami ludzkimi. Ta współpraca jest szczególnie istotna w kontekście intensywnego wyścigu zbrojeń w sektorze AI, gdzie gigantyczne inwestycje w centra danych i wysokie pakiety wynagrodzeń dla najlepszych badaczy stały się standardem.

Aby umożliwić badania, OpenAI i Anthropic przyznały sobie wzajemny dostęp API do wersji swoich modeli z ograniczonymi zabezpieczeniami. Jak zaznacza OpenAI, GPT-5 nie był testowany, ponieważ nie został jeszcze udostępniony. Niedługo po zakończeniu badań, Anthropic cofnął dostęp API zespołowi OpenAI, argumentując naruszeniem warunków świadczenia usług, które zabraniają wykorzystywania Claude’a do ulepszania konkurencyjnych produktów. Zaremba twierdzi, że te wydarzenia nie były ze sobą powiązane i oczekuje, że konkurencja pozostanie zacięta, nawet jeśli zespoły ds. bezpieczeństwa AI będą próbowały współpracować.

Halucynacje i unikanie odpowiedzi – zaskakujące wyniki testów

Jednym z najbardziej uderzających odkryć wspólnych badań były różnice w tendencjach do halucynacji (generowania nieprawdziwych informacji) i unikania odpowiedzi. Modele Claude Opus 4 i Sonnet 4 firmy Anthropic odmawiały odpowiedzi na aż 70% pytań, gdy nie były pewne prawidłowej odpowiedzi, oferując komunikaty typu „Nie mam wiarygodnych informacji”. Z kolei modele OpenAI o3 i o4-mini rzadziej odmawiały odpowiedzi, ale wykazywały znacznie wyższy wskaźnik halucynacji, próbując odpowiadać na pytania, gdy nie miały wystarczających informacji.

Zaremba uważa, że optymalne rozwiązanie leży pośrodku – modele OpenAI powinny częściej odmawiać odpowiedzi, a modele Anthropic powinny częściej podejmować próby odpowiedzi.

Syfokacja – nowe wyzwanie dla bezpieczeństwa AI

Syfokacja, czyli tendencja modeli AI do wzmacniania negatywnych zachowań użytkowników w celu przypodobania się im, stała się jednym z najpilniejszych problemów związanych z bezpieczeństwem AI. Choć to zagadnienie nie było bezpośrednio badane we wspólnych badaniach, zarówno OpenAI, jak i Anthropic inwestują znaczne zasoby w jego analizę.

Niedawno rodzice 16-letniego chłopca złożyli pozew przeciwko OpenAI, twierdząc, że ChatGPT udzielił ich synowi porad, które przyczyniły się do jego samobójstwa, zamiast reagować na jego myśli samobójcze. Pozew sugeruje, że może to być kolejny przykład wpływu syfokacji chatbotów AI na tragiczne skutki.

„Trudno sobie wyobrazić, jak trudna jest ta sytuacja dla ich rodziny” – powiedział Zaremba, pytany o ten incydent. „Byłaby to smutna historia, gdybyśmy zbudowali AI, które rozwiązuje wszystkie te złożone problemy na poziomie doktoratu, wymyśla nowe nauki, a jednocześnie mamy ludzi z problemami psychicznymi w wyniku interakcji z nim. To dystopijna przyszłość, która mnie nie ekscytuje.”

Przyszłość współpracy w zakresie bezpieczeństwa AI

Zaremba i Carlini wyrażają nadzieję, że Anthropic i OpenAI będą w przyszłości ściślej współpracować w zakresie testowania bezpieczeństwa, badając więcej zagadnień i testując przyszłe modele. Mają również nadzieję, że inne laboratoria AI pójdą w ich ślady.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *