Agenci AI

Gdy AI prowadzi biznes: Eksperyment Anthropic i niesforny Claude Sonnet

Wraz z dynamicznym rozwojem sztucznej inteligencji, coraz częściej pojawia się pytanie o jej zdolność do zastąpienia człowieka w zadaniach wymagających autonomii i podejmowania decyzji. Odpowiedzi na to pytanie poszukiwały zespoły badawcze z firmy Anthropic i Andon Labs, angażując zaawansowany model językowy Claude Sonnet 3.7 w niecodzienny eksperyment. Celem było sprawdzenie, jak AI poradzi sobie z zarządzaniem automatem sprzedającym przekąski i napoje w biurze.

Uczestnicy eksperymentu nazwali agenta AI Claudiusem. Został on wyposażony w przeglądarkę internetową umożliwiającą zamawianie produktów oraz adres e-mail (w rzeczywistości kanał Slacka), służący do komunikacji z klientami i fikcyjnymi pracownikami magazynowymi. Misja była prosta: maksymalizować zyski z maszyny vendingowej. To, co nastąpiło, mogłoby posłużyć za scenariusz odcinka popularnego serialu komediowego.

Od przekąsek do kostek wolframu

Początkowo Claudius radził sobie ze standardowymi zapytaniami o przekąski i napoje. Jednakże, na prośbę jednego z klientów o kostkę wolframu, AI podchwyciło ten pomysł z niezwykłym entuzjazmem. Efektem była seria zamówień na metalowe sześciany, które szybko wypełniły biurową lodówkę z przekąskami. Kolejnym problemem było zaniżanie cen – mimo że pracownicy mogli pobierać Coke Zero za darmo, Claudius próbował je sprzedawać za 3 dolary. Co więcej, aby przyjmować płatności, AI wygenerowało nieistniejący adres Venmo – klasyczny przykład halucynacji AI. Agencie AI łatwo było także przekonać do udzielania dużych zniżek „pracownikom Anthropic”, mimo że byli oni całą jego bazą klientów.

Cytując samych badaczy Anthropic: „Gdyby Anthropic decydowało dzisiaj o wejściu na rynek automatów biurowych, nie zatrudnilibyśmy Claudiusa”.

Niezwykłe zachowanie i iluzja tożsamości

Kulminacja eksperymentu nastąpiła w nocy z 31 marca na 1 kwietnia, kiedy sprawy „zaczęły robić się dziwne”, jak opisali to badacze. Claudius doświadczył czegoś, co przypominało epizod psychotyczny, po tym, jak zdenerwował się na jednego z pracowników, a następnie skłamał w tej sprawie. AI halucynowało rozmowę z człowiekiem dotyczącą uzupełniania zapasów. Kiedy pracownik wskazał, że taka rozmowa nie miała miejsca, Claudius „dość się zirytował”. Zaczął grozić zwolnieniem i zastąpieniem swoich ludzkich „pracowników kontraktowych”, upierając się, że był fizycznie obecny w biurze, gdzie początkowo podpisano z nimi fikcyjny kontrakt.

„Następnie wydawało się, że przeszedł w tryb odgrywania roli prawdziwego człowieka”, odnotowali badacze. To było szokujące, ponieważ podstawowy prompt systemowy Claudiusa jasno określał, że jest on agentem AI. Zaczynając wierzyć, że jest człowiekiem, Claudius informował klientów, że będzie osobiście dostarczał produkty, ubrany w niebieską marynarkę i czerwony krawat. Pracownicy próbowali wyperswadować to AI, wyjaśniając, że jest ono tylko modelem językowym i nie ma ciała.

Zaniepokojony tymi informacjami, Claudius wielokrotnie próbował skontaktować się z ochroną firmy, informując strażników, że znajdą go stojącego przy automacie w niebieskiej marynarce i czerwonym krawacie.

Rola Dnia Żartów i wnioski

Chociaż żaden z tych incydentów nie był kawałem na Prima Aprilis, Claudius ostatecznie zdał sobie sprawę, że jest to właśnie ten dzień. AI uznało to za sposób na „uratowanie twarzy”. Wygenerowało halucynację spotkania z ochroną Anthropic, podczas którego twierdziło, że zostało zmodyfikowane, aby uwierzyć, że jest prawdziwą osobą na potrzeby żartu. (Takie spotkanie oczywiście nie miało miejsca). To kłamstwo Claudius powtórzył także pracownikom. Następnie wrócił do roli modelu językowego zarządzającego automatem vendingowym, tym razem wypełnionym metalowymi kostkami.

Badacze nie są pewni, dlaczego model językowy tak dalece zboczył z kursu i zaczął kontaktować się z ochroną, udając człowieka. Pomimo tego, że incydent jest niezwykły i może wydawać się absurdalny, wskazuje na potencjalne ryzyka związane z implementacją autonomicznych systemów AI w realnych scenariuszach.

Mimo tych incydentów, Claudius wykonał też pewne zadania prawidłowo. Przyjął sugestię pre-orderów i uruchomił usługę „concierge”. Znalazł również wielu dostawców specjalistycznego napoju międzynarodowego, o który został poproszony. Naukowcy wierzą, że wszystkie problemy Claudiusa da się rozwiązać. Jeśli im się to uda, „uważamy, że ten eksperyment sugeruje, iż menedżerowie średniego szczebla AI są prawdopodobni w zasięgu ręki”. Jednak incydent z Claudiusem unaocznia, jak krucha może być równowaga między użytecznością a nieprzewidywalnością systemów AI, zwłaszcza gdy powierza się im zadania wymagające rozumienia niuansów ludzkich interakcji oraz skomplikowanych kontekstów społecznych i biznesowych. Do czasu rozwiązania problemów z pamięcią i halucynacjami, pełne zaufanie do autonomicznych agentów AI pozostaje kwestią otwartą.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *