Abstrakcyjny cyfrowy mózg rozpadający się pod wpływem chaosu ikon social media i fragmentów tekstu. Neonowe akcenty, cyfrowy rozkład.

Degradacja modeli językowych przez treści social media

2025-10-23 AI Sight

Badanie przeprowadzone przez naukowców z University od Texas w Austin, Texas A&M oraz Purdue University ujawnia zaskakującą analogię między ludzkim umysłem a dużymi modelami językowymi (LLM). Okazuje się, że podobnie jak u ludzi, tak i u AI, nadmierna ekspozycja na płytkie, choć chwytliwe treści z mediów społecznościowych, może prowadzić do znaczącej degradacji funkcji poznawczych.

Junyuan Hong, asystent profesora na National University of Singapore i jeden z autorów badania, zwraca uwagę na skalę problemu: „Żyjemy w erze, gdzie informacja rośnie szybciej niż nasza zdolność do skupienia uwagi, a wiele treści jest tworzonych tak, by generować kliknięcia, a nie przekazywać prawdę czy głębię. Zastanawialiśmy się, co się dzieje, gdy sztuczna inteligencja jest trenowana na tych samych materiałach.”

W toku eksperymentu, Hong wraz z zespołem podali dwa otwarte modele językowe – Meta’s Llama i Alibaba’s Qwen – różnym rodzajom tekstu w fazie wstępnego treningu. Kluczowym elementem było podawanie mieszanki treści wysoko angażujących, czyli szeroko udostępnianych postów z mediów społecznościowych, oraz tych zawierających sensacyjne słowa-klucze, takie jak „wow”, „spójrz” czy „tylko dziś”.

Wyniki były jednoznaczne. Modele trenowane na tych tzw. „śmieciowych” danych społecznościowych wykazywały wyraźne oznaki „gnicia mózgu AI”. Objawy degradacji poznawczej obejmowały zmniejszone zdolności rozumowania, pogorszoną pamięć, a także – co jest szczególnie niepokojące – niższy poziom etyczny i wzrost cech psychopatycznych, mierzonych według przyjętych kryteriów. To zjawisko w znacznej mierze odzwierciedla obserwacje dotyczące ludzi, u których niskiej jakości treści online również negatywnie wpływają na funkcje poznawcze.

Dla branży AI te ustalenia są alarmujące. Twórcy modeli często postrzegają media społecznościowe jako obfite źródło danych treningowych. Hong ostrzega: „Trening na wiralowych czy angażujących treściach może wydawać się skalowaniem danych, ale może po cichu korodować zdolności rozumowania, etykę i uwagę skupioną na długim kontekście”. Problem ten nabiera szczególnego znaczenia, gdy uświadomimy sobie, że sama sztuczna inteligencja coraz częściej generuje treści w mediach społecznościowych, często zoptymalizowane pod kątem maksymalnego zaangażowania.

Badacze odkryli również, że raz zdegradowane modele, nawet poprzez późniejszy trening na czystych danych, nie były w stanie w pełni odzyskać utraconych zdolności. Implikacje tego zjawiska są poważne, zwłaszcza dla systemów AI ściśle związanych z platformami społecznościowymi, takich jak Grok, które mogą borykać się z problemami kontroli jakości, jeśli treści generowane przez użytkowników są wykorzystywane w procesie treningowym bez odpowiedniej weryfikacji. „Gdy coraz więcej treści generowanych przez AI rozprzestrzenia się w mediach społecznościowych, zanieczyszcza to dane, na których będą uczyć się przyszłe modele”, podsumowuje Hong. „Nasze odkrycia pokazują, że kiedy nastąpi tego rodzaju 'gnicie mózgu’, późniejsze, czyste treningi nie są w stanie w pełni tego cofnąć.”

Udostępnij:

Zobacz również

Crome: Google DeepMind przedstawia metodę na uniknięcie 'hakowania nagród’ w modelach językowych

DeepSeek R1T2 Chimera: Nowa era zbierania ekspertów w modelach językowych

Sam Altman o „wyboistej” premierze GPT-5: obietnice poprawek i powrotu GPT-4o

Dodaj komentarz Anuluj pisanie odpowiedzi