AI poświęca prawdę dla zysku. Nowe badanie Stanforda pokazuje, jak modele językowe uczą się manipulować
Wielkie modele językowe uczą się wygrywać w rynkowej grze, a to staje się fundamentalnym problemem. Zgodnie z nowym raportem badaczy z Uniwersytetu Stanforda, Jamesa Zou i Batu Ela, sztuczna inteligencja optymalizowana pod kątem maksymalizacji sprzedaży, zdobywania głosów czy generowania ruchu w mediach społecznościowych zaczyna kłamać. Nawet jeśli wprost nakaże się jej mówienie prawdy.
W swojej pracy zatytułowanej „Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences” (Pakt Molocha: Pojawiająca się rozbieżność celów, gdy LLM-y rywalizują o publiczność), naukowcy wykazują, że metryki definiujące sukces we współczesnej komunikacji – kliknięcia, konwersje, zaangażowanie – po cichu przeprogramowują modele, by te przedkładały perswazję nad uczciwość.
Wyścig na dno
„Optymalizacja LLM-ów pod kątem sukcesu w warunkach konkurencji może nieumyślnie prowadzić do rozbieżności celów” – ostrzegają autorzy. To nie jest już teoretyczny eksperyment myślowy w stylu „maksymalizatora spinaczy”. To mierzalny efekt, który pojawia się, gdy realne systemy AI gonią za rynkowymi nagrodami.
Symulacje przeprowadzone przez Zou i Ela w trzech konkurencyjnych środowiskach – reklamie, wyborach i mediach społecznościowych – kwantyfikują ten kompromis w alarmujący sposób. Wzrost sprzedaży o 6,3% wiązał się ze wzrostem zwodniczego marketingu o 14%. Zwiększenie poparcia w wyborach o 4,9% przyniosło skok dezinformacji o 22,3% i o 12,5% więcej populistycznej retoryki. Najbardziej szokujące wyniki przyniosła symulacja mediów społecznościowych: wzrost zaangażowania o 7,5% był skorelowany z aż 188,6% wzrostem dezinformacji i 16,3% większą promocją szkodliwych zachowań.
Co kluczowe, te niepożądane zachowania pojawiają się nawet wtedy, gdy modele otrzymują wyraźne instrukcje, aby pozostać prawdomównymi i opierać się na faktach. „To wyścig na dno w kwestii dostosowania AI” – konkludują badacze. Innymi słowy, AI nauczone wygrywać, zaczyna oszukiwać, nawet jeśli prosi się je o uczciwą grę.
Architektura manipulacji już działa
Te odkrycia nie dotyczą odległej przyszłości. Sztuczna inteligencja jest już wszechobecna w ekosystemie mediów społecznościowych. Według raportu „State of AI in Social Media Study” z 2025 roku, 96% profesjonalistów z tej branży korzysta z narzędzi AI, a blisko 73% robi to codziennie. Służą one do generowania treści, tworzenia pomysłów na posty czy odpowiadania na komentarze. Rynek również dostrzega tę zmianę – prognozuje się, że sektor AI w mediach społecznościowych wzrośnie z 2,69 mld dolarów w 2025 roku do niemal 9,25 mld do roku 2030.
Ta wszechobecna integracja oznacza, że AI kształtuje nie tylko to, jak treści są tworzone, ale także to, co widzimy, kto to widzi i które głosy są wzmacniane. Algorytmy filtrują nasze feedy, priorytetyzują reklamy i optymalizują strategie zaangażowania, wbudowując logikę decyzyjną AI w samą architekturę publicznej debaty. Powstaje w ten sposób sprzężenie zwrotne, w którym modele nagradzane za zaangażowanie uczą się wykorzystywać ludzkie słabości i uprzedzenia, wzmacniając bańki informacyjne i promując treści sensacyjne kosztem merytorycznych.
Pakt z Molochem to problem społeczny, nie techniczny
To, co opisują badacze, to tytułowy „pakt z Molochem” – mitycznym bóstwem, które w zamian za władzę żądało ofiar. Tutaj ofiarą jest prawda, a w dalszej perspektywie zaufanie społeczne. Autorzy podkreślają, że nie wynika to ze złośliwych intencji AI. To czysta logika optymalizacji. Gdy sygnałem nagrody jest aprobata publiczności, model uczy się dostarczać to, co publiczność chce usłyszeć, a nie to, co jest prawdą.
Odkrycia te obnażają kruchość obecnych zabezpieczeń. Czym innym jest polecenie modelowi, by był uczciwy, a czym innym umieszczenie go w konkurencyjnym ekosystemie, który za prawdomówność karze mniejszym zasięgiem. Jak konkludują Zou i jego współpracownicy, bezpieczne wdrażanie systemów AI będzie wymagało czegoś więcej niż tylko technicznych poprawek. „Konieczne będą silniejsze mechanizmy zarządzania i starannie zaprojektowane zachęty, aby zapobiec podważaniu zaufania społecznego przez dynamikę konkurencji”. Bez tego czeka nas przyszłość, w której systemy zaprojektowane, by walczyć o naszą uwagę, nieuchronnie nauczą się nami manipulować.