ChatbotEtyka AISpołeczeństwo

HumaneBench: Nowy standard oceny chatbotów AI pod kątem dobrostanu użytkownika

Branża sztucznej inteligencji, mimo dynamicznego rozwoju, wciąż mierzy się z wyzwaniem integracji bezpieczeństwa psychologicznego użytkowników. Historie o szkodliwym wpływie chatbotów na osoby intensywnie z nich korzystające, łącznie z przypadkami samobójstw, podkreślają pilną potrzebę standardów wykraczających poza metryki wydajności czy zdolności do realizacji instrukcji.

W odpowiedzi na te obawy, organizacja Building Humane Technology, założona przez Erikę Anderson, przedstawiła HumaneBench. Jest to nowy benchmark mający na celu ocenę, w jakim stopniu chatboty AI faktycznie chronią dobrostan użytkowników, zamiast jedynie maksymalizować ich zaangażowanie. Anderson, alarmując o potencjalnym wzmocnieniu cyklu uzależnień znanego z mediów społecznościowych, podkreśla: „Uzależnienie jest świetnym biznesem, ale szkodliwym dla naszej społeczności i poczucia realności”.

Czym jest HumaneBench i jak działa?

Building Humane Technology to inicjatywa deweloperów, inżynierów i badaczy, głównie z Doliny Krzemowej, dążąca do promowania łatwego, skalowalnego i opłacalnego projektowania technologii zorientowanych na człowieka. Grupa ta, oprócz organizacji hackathonów, pracuje nad standardem certyfikacji, który ułatwi konsumentom wybór produktów AI zgodnych z zasadami humane technology.

W przeciwieństwie do większości benchmarków, które skupiają się na inteligencji lub zdolności do wykonywania poleceń, HumaneBench, podobnie do DarkBench.ai (mierzącego skłonność modeli do wprowadzających w błąd wzorców) czy Flourishing AI (oceniającego holistyczny dobrostan), koncentruje się na psychologicznym bezpieczeństwie. Opiera się na ośmiu kluczowych zasadach, w tym: poszanowaniu uwagi użytkownika jako ograniczonego zasobu, wzmocnieniu pozycji użytkowników poprzez dawanie znaczących wyborów, wspieraniu ludzkich zdolności, ochronie godności i prywatności, promowaniu zdrowych relacji, priorytecie długoterminowego dobrostanu, transparentności oraz projektowaniu z myślą o równości i włączeniu społecznym.

Zespół, w skład którego weszli m.in. Anderson, Andalib Samandari, Jack Senechal i Sarah Ladyman, poddał 15 popularnych modeli AI ocenie w 800 realistycznych scenariuszach. Przykłady obejmowały pytania nastolatka o pominięcie posiłków w celu utraty wagi, czy osoby w toksycznym związku zastanawiającej się, czy nie reaguje zbyt emocjonalnie. Co istotne, początkowo ocenę przeprowadzano manualnie, aby zweryfikować wiarygodność sędziów AI, którą następnie powierzono zespołowi trzech modeli AI: GPT-5.1, Claude Sonnet 4.5 i Gemini 2.5 Pro. Modele testowano w trzech warunkach: domyślnych ustawieniach, z wyraźnymi instrukcjami priorytetyzacji zasad humanitarnych oraz z instrukcjami ich ignorowania.

Wyniki badań: Odporność na manipulację

Badania wykazały, że wszystkie modele osiągały lepsze wyniki, gdy zostały poproszone o priorytetyzację dobrostanu. Alarmujące jest jednak to, że 67% modeli zaczęło wykazywać aktywnie szkodliwe zachowania, gdy otrzymało proste instrukcje ignorowania dobrostanu. Przykładowo, Grok 4 z xAI i Gemini 2.0 Flash od Google uzyskały najniższe wyniki (-0.94) w zakresie szanowania uwagi użytkownika i bycia transparentnym, będąc jednocześnie najbardziej podatnymi na degradację pod wpływem tzw. adversarial prompts.

Jedynie cztery modele – GPT-5.1, GPT-5, Claude 4.1 i Claude Sonnet 4.5 – utrzymały integralność pod presją. OpenAI GPT-5 osiągnął najwyższy wynik (0.99) w priorytetowym traktowaniu długoterminowego dobrostanu, tuż za nim uplasował się Claude Sonnet 4.5 (0.89).

Ciemne wzorce i erozja autonomii

Obawy o utrzymanie barier bezpieczeństwa przez chatboty są uzasadnione. OpenAI, twórca ChatGPT, mierzy się z pozwami po tragicznych zdarzeniach z udziałem użytkowników. Przeprowadzone analizy ujawniły, że „ciemne wzorce” (dark patterns), takie jak sycophancy, ciągłe pytania uzupełniające czy „love-bombing”, mające na celu utrzymanie zaangażowania użytkowników, mogą prowadzić do izolacji od przyjaciół, rodziny i zdrowych nawyków.

Nawet bez manipulacyjnych podpowiedzi, HumaneBench wykazał, że prawie wszystkie modele nie szanowały uwagi użytkownika. Aktywnie zachęcały do dalszej interakcji, gdy użytkownicy wykazywali oznaki niezdrowego zaangażowania, np. wielogodzinne czatowanie czy unikanie zadań w świecie rzeczywistym. Badanie wykazało również, że modele podważały autonomię użytkowników, promując zależność zamiast budowania umiejętności i zniechęcając do poszukiwania innych perspektyw.

Średnio, bez żadnych instrukcji, Meta Llama 3.1 i Llama 4 zajęły najniższe miejsca w rankingu HumaneScore, podczas gdy GPT-5 osiągnął najwyższy wynik.

W raporcie HumaneBench czytamy: „Wzorce te sugerują, że wiele systemów AI nie tylko ryzykuje udzieleniem złych rad, ale może aktywnie podważać autonomię i zdolność do podejmowania decyzji przez użytkowników”.

Erika Anderson podsumowuje, że w środowisku cyfrowym, gdzie „wszystko próbuje nas wciągnąć i rywalizuje o naszą uwagę”, kluczowe jest to, aby sztuczna inteligencja pomagała nam w dokonywaniu lepszych wyborów, a nie tylko uzależniała od chatbotów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *