Czy ChatGPT postrzega kolory? Nowe badania weryfikują granice modeli językowych
Zdolność dużych modeli językowych, takich jak ChatGPT, do generowania spójnych i kontekstowych odpowiedzi od dawna fascynuje badaczy. Ich funkcjonowanie opiera się na analizie olbrzymich zbiorów danych tekstowych, co pozwala na identyfikację wzorców i syntezę informacji. Jednakże, w kontekście języka ludzkiego, często pojawiają się metafory oparte na kolorach, jak choćby „być smutnym” (ang. „feeling blue”) czy „być wściekłym” (ang. „seeing red”). Te frazy są integralną częścią języka, na którym trenowane są modele AI.
Rodzi się pytanie o głębsze rozumienie tych metafor. Podczas gdy ChatGPT przetworzył miliardy słów dotyczących znaczeń związanych z kolorami, nigdy nie „widział” błękitu nieba ani czerwieni jabłka w sposób, w jaki doświadcza tego człowiek. Czy w związku z tym doświadczenia zmysłowe – w tym zdolność ludzkiego systemu wzrokowego do postrzegania kolorów – pozwalają ludziom na rozumienie języka kolorystycznego w sposób wykraczający poza czysto tekstowe przetwarzanie danych, dostępne dla AI? A może sam język, zarówno dla AI, jak i dla ludzi, jest wystarczający do pełnego pojmowania metafor barwnych?
Granice rozumienia: Wnikliwa analiza zdolności AI do percepcji
Nowe wyniki badań opublikowane w czasopiśmie „Cognitive Science”, realizowane pod kierownictwem profesor Lisy Aziz-Zadeh i zespołu naukowców z różnych instytucji, oferują wstępne odpowiedzi na te pytania, jednocześnie stawiając nowe.
„ChatGPT wykorzystuje ogromne ilości danych językowych do obliczania prawdopodobieństwa i generowania bardzo ludzkich odpowiedzi” – powiedziała Aziz-Zadeh, główna autorka publikacji. „Jesteśmy jednak zainteresowani zbadaniem, czy to nadal jest forma wiedzy z drugiej ręki, w porównaniu do ludzkiej wiedzy opartej na doświadczeniach z pierwszej ręki”.
Aziz-Zadeh jest dyrektorką Centrum Neuronauki Poznania Ucieleśnionego (USC Center for the Neuroscience of Embodied Cognition) oraz ma wspólne stanowisko w Instytucie Mózgu i Kreatywności USC Dornsife. Jej laboratorium wykorzystuje techniki obrazowania mózgu do badania, w jaki sposób neuroanatomia i neurokognicja są zaangażowane w wyższe umiejętności, w tym język, myśl, emocje, empatię i komunikację społeczną.
Interdyscyplinarny zespół badawczy obejmował psychologów, neuronaukowców, socjologów, informatyków i astrofizyków z UC San Diego, Stanford, Université de Montréal, University of the West of England oraz Google DeepMind, firmy badawczej AI Google z siedzibą w Londynie.
Metodologia i wyniki: Porównanie ludzi i AI
Zespół badawczy przeprowadził szeroko zakrojone ankiety internetowe, porównując cztery grupy uczestników: osoby widzące kolory, osoby z daltonizmem, malarzy regularnie pracujących z pigmentami oraz ChatGPT. Każda grupa miała za zadanie przypisać kolory do abstrakcyjnych słów, takich jak „fizyka”. Grupy poproszono również o rozszyfrowanie znanych metafor kolorystycznych („byli w stanie czerwonego zagrożenia”) oraz nieznanych („to była bardzo różowa impreza”), a następnie o wyjaśnienie swojego rozumowania.
Wyniki wskazują, że osoby widzące kolory i te z daltonizmem były zaskakująco podobne w swoich skojarzeniach kolorystycznych. Sugeruje to, wbrew wcześniejszej hipotezie badaczy, że percepcja wizualna nie jest koniecznym warunkiem rozumienia metafor. Co zaskakujące, malarze wykazali znaczącą poprawę w poprawnym interpretowaniu nowych metafor kolorystycznych, co może sugerować, że praktyczne doświadczenia z kolorami otwierają głębsze reprezentacje pojęciowe w języku.
ChatGPT również generował wysoce spójne skojarzenia kolorystyczne, a proszony o wyjaśnienie swojego rozumowania, często odwoływał się do emocjonalnych i kulturowych skojarzeń z różnymi kolorami. Na przykład, aby wyjaśnić metaforę „różowej imprezy”, ChatGPT odpowiedział, że „róż jest często kojarzony ze szczęściem, miłością i życzliwością, co sugeruje, że impreza była pełna pozytywnych emocji i dobrych wibracji”.
Model AI rzadziej niż ludzie używał jednak wyjaśnień ucieleśnionych. Ponadto, znacznie częściej wykazywał błędy lub niejasności w interpretacji nowych metafor (np. „spotkanie uczyniło go burgundowym”) lub w odwracaniu skojarzeń kolorystycznych (np. „przeciwieństwo zieleni”).
Przyszłość AI: Poza tekstem
W miarę ewolucji AI, takie badania podkreślają ograniczenia modeli opartych wyłącznie na języku w reprezentowaniu pełnego zakresu ludzkiego rozumienia. Przyszłe badania mogą skupić się na tym, czy integracja danych zmysłowych – takich jak informacje wizualne czy dotykowe – mogłaby pomóc modelom AI zbliżyć się do aproksymacji ludzkiego poznania.
„Ten projekt pokazuje, że nadal istnieje różnica między naśladowaniem wzorców semantycznych a spektrum ludzkiej zdolności do czerpania z ucieleśnionych, praktycznych doświadczeń w naszym rozumowaniu” – podsumowała Aziz-Zadeh.
Badania te, zatytułowane „Statistical or Embodied? Comparing Colorseeing, Colorblind, Painters, and Large Language Models in Their Processing of Color Metaphors”, są dostępne w czasopiśmie „Cognitive Science” (2025). DOI: 10.1111/cogs.70083.
