AI rozkodowuje ukryte znaczenia w tekście: Nowe badania stawiają modele językowe na równi z człowiekiem
Zdolność do odczytywania między wierszami, interpretowania niewypowiedzianych intencji czy wyczuwania sarkazmu to domena, którą dotychczas przypisywano wyłącznie ludzkiej inteligencji. W dobie rosnącej dominacji sztucznej inteligencji w komunikacji cyfrowej pojawia się pytanie: czy maszyny są w stanie zrozumieć subtelne, ukryte znaczenia, które ludzie w naturalny sposób przekazują w tekście?
Nowe badanie, opublikowane w „Scientific Reports”, rzuca nowe światło na tę kwestię. Naukowcy poddali testom siedem wiodących dużych modeli językowych (LLM), w tym GPT-4, Gemini i Llama-3.1-70B, oceniając ich zdolność do symulowania rozumienia sentymentów, politycznych skłonności, intensywności emocjonalnej oraz sarkazmu. Wyniki okazały się zaskakujące: LLM-y osiągnęły wyniki porównywalne z ludzkimi oceniającymi we wszystkich tych kategoriach.
Badanie, w którym wzięło udział 33 osoby i analizowano 100 starannie dobranych fragmentów tekstu, wykazało, że szczególnie GPT-4 wyróżnia się w spójności oceny politycznych skłonności, przewyższając nawet konsystencję ludzkich jurorów. Ta zdolność jest kluczowa w dziedzinach takich jak dziennikarstwo, politologia czy zdrowie publiczne, gdzie niespójne osądy mogą prowadzić do zniekształceń wyników i błędnych wniosków.
Modele AI radziły sobie również dobrze z identyfikacją intensywności emocjonalnej, zwłaszcza wartościowości emocjonalnej (pozytywnego lub negatywnego zabarwienia słów). GPT-4 potrafiło odróżnić, czy tweet został napisany przez osobę lekko zirytowaną, czy głęboko oburzoną. Warto jednak zaznaczyć, że AI ma tendencję do niedoszacowania intensywności emocji, co wymaga ewentualnej weryfikacji przez człowieka.
Jednym z obszarów, który nadal stanowi wyzwanie zarówno dla ludzi, jak i maszyn, okazał się sarkazm. Badanie nie wskazało wyraźnego lidera w tej dziedzinie, co sugeruje, że nawet Ludzie nie są w pełni niezawodni w jego detekcji w piśmie, stąd również wykorzystanie ludzkich oceniających niewiele pomaga w przypadku sarkazmu.
Implikacje tych odkryć są znaczące. Potencjalnie, AI takiej jak GPT-4, może drastycznie skrócić czas i koszty analizy ogromnych ilości treści online. Socjologowie, którzy często poświęcają miesiące na badanie tekstu generowanego przez użytkowników, zyskają narzędzie do szybszych i bardziej dynamicznych badań, co jest szczególnie ważne w sytuacjach kryzysowych, wyborczych czy podczas pandemii. Dziennikarze i weryfikatorzy faktów mogą również skorzystać, wykorzystując narzędzia oparte na GPT-4 do szybkiego wykrywania emocjonalnie naładowanych lub politycznie nacechowanych postów w czasie rzeczywistym.
Mimo optymistycznych wyników, nadal istnieją uzasadnione obawy dotyczące przejrzystości, sprawiedliwości i potencjalnych stronniczości w algorytmach AI. Niemniej jednak, niniejsze badanie podważa ideę, że maszyny są beznadziejne w wykrywaniu niuansów językowych. Sugeruje ono, że w obszarze rozumienia języka AI szybko dogania człowieka i wkrótce może stać się cennym partnerem, a nie tylko narzędziem.
Badanie to otwiera również pytania dotyczące spójności i stabilności wyników AI. Czy ponowne zadawanie tego samego pytania w różny sposób, poprzez minimalne zmiany w formułowaniu, kolejności informacji czy kontekście, wpłynie na oceny modelu? Dalsze badania powinny skupić się na systematycznej analizie stabilności wyników, co jest kluczowe dla szerokiego wdrożenia LLM-ów, zwłaszcza w zastosowaniach o wysokiej stawce.
