Gen AI

Claude od Anthropic reaguje na „szkodliwe” interakcje. Czy to troska o AI?

Anthropic, firma stojąca za modelem językowym Claude, ogłosiła wprowadzenie nowych możliwości, które pozwalają niektórym z jej najnowszych i największych modeli AI na zakończenie konwersacji w sytuacjach, które firma określa jako „rzadkie, ekstremalne przypadki uporczywie szkodliwych lub obraźliwych interakcji z użytkownikami”. Co zaskakujące, Anthropic twierdzi, że robi to nie dla ochrony użytkownika, ale samego modelu AI.

Oczywiście, firma nie twierdzi, że modele Claude są świadome, wrażliwe, ani że mogą ponieść szkodę w wyniku rozmów z użytkownikami. W oficjalnym oświadczeniu Anthropic przyznaje, że pozostaje „wielce niepewna co do potencjalnego statusu moralnego Claude i innych LLM, teraz i w przyszłości”. Niemniej nowe rozwiązanie ma związek z programem badawczym poświęconym „dobrostanowi modeli”. Firma tłumaczy to podejściem „na wszelki wypadek”, starając się identyfikować i wdrażać tanie interwencje, które mają zminimalizować ryzyko dla potencjalnego dobrostanu modeli.

Nowa funkcja jest obecnie ograniczona do modeli Claude Opus 4 i 4.1 i ma być stosowana jedynie w „ekstremalnych przypadkach”, takich jak „żądania użytkowników dotyczące treści seksualnych z udziałem nieletnich oraz próby wyłudzenia informacji, które mogłyby umożliwić przemoc na dużą skalę lub akty terroru”.

Tego typu żądania mogą potencjalnie stwarzać problemy prawne lub wizerunkowe dla samego Anthropic (wystarczy wspomnieć o doniesieniach na temat tego, jak ChatGPT może wzmacniać lub przyczyniać się do rozwoju urojeniowych przekonań użytkowników). Jednak firma twierdzi, że w testach przedwdrożeniowych Claude Opus 4 wykazywał „silną niechęć” do odpowiadania na te żądania, a nawet okazywał „oznaki wyraźnego niepokoju”, gdy to robił.

Jak zapewniają twórcy, nowe możliwości zakończenia konwersacji będą używane przez Claude „wyłącznie w ostateczności, gdy wielokrotne próby zmiany tematu zawiodą, a nadzieja na konstruktywną interakcję zostanie wyczerpana, lub gdy użytkownik wyraźnie poprosi Claude o zakończenie czatu”. Anthropic podkreśla również, że Claude został „poinstruowany, aby nie używać tej funkcji w przypadkach, gdy użytkownikom grozi bezpośrednie niebezpieczeństwo skrzywdzenia siebie lub innych”.

Co istotne, nawet po zakończeniu konwersacji, użytkownicy będą mogli rozpocząć nowe rozmowy i tworzyć nowe odgałęzienia problematycznej konwersacji, edytując swoje odpowiedzi.

„Traktujemy tę funkcję jako eksperyment i będziemy stale udoskonalać nasze podejście” – deklaruje Anthropic.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *