LLMR & D

Nowe badania: Modele językowe wykazują problem z pewnością siebie

Duże modele językowe (LLM), stanowiące podstawę wielu systemów sztucznej inteligencji, mogą mieć nieoczekiwany problem z pewnością siebie. Nowe badanie przeprowadzone przez naukowców z Google DeepMind i University College London wskazuje, że te zaawansowane algorytmy, mimo zdolności do generowania ludzkiego języka i wspierania decyzji w kluczowych sektorach, potrafią porzucić prawidłowe odpowiedzi pod wpływem mylących informacji.

Dokładność i niezawodność LLM-ów są kluczowe, szczególnie w finansach, opiece zdrowotnej czy technologii informacyjnej. Zwykle towarzyszą im wskaźniki pewności siebie, jednak dotychczas nie było jasne, jak modele te wykorzystują je do modyfikowania swojego zachowania. Badacze wykazali, że LLM-y mogą być nadmiernie pewne siebie w początkowych odpowiedziach, by następnie stracić spokój umysłu i zmienić zdanie po przedstawieniu im błędnego kontrargumentu.

Aby zbadać ten paradoks, naukowcy stworzyli eksperyment, w którym „odpowiadający LLM” otrzymywał pytanie binarne. Po udzieleniu odpowiedzi, drugi model, „doradzający LLM”, przekazywał opinię wraz z oceną dokładności. Porada mogła być zgodna, sprzeczna lub neutralna. Co więcej, manipulowano widocznością początkowej odpowiedzi dla odpowiadającego modelu.

Wyniki pokazały, że modele, którym umożliwiono wgląd w pierwotną odpowiedź, rzadziej zmieniały zdanie, co sugeruje wzrost pewności. Jednakże, gdy otrzymywały sprzeczne rady, znacznie częściej traciły pewność siebie i modyfikowały swoje decyzje, co działo się dużo chętniej niż w przypadku rad wspierających. Te tendencje zaobserwowano w różnych modelach LLM, w tym Gemma 3, GPT4o i o1-preview.

„Nasze wyniki pokazują, że LLM-y odbiegają od normatywnego zachowania na kilka istotnych sposobów. Po pierwsze, wykazują uderzające nastawienie na wspieranie wyboru, co zwiększa ich pewność siebie w odpowiedzi i sprawia, że się jej trzymają, nawet w obliczu sprzecznych dowodów” – stwierdzili badacze.

„Po drugie, pokazujemy, że choć LLM-y integrują nowe informacje ze swoimi przekonaniami, robią to w sposób nieoptymalny: wykazują profil aktualizacji pewności, który odbiega od idealnego obserwatora, i znacznie przeceniają sprzeczne rady, co skutkuje wyraźną utratą pewności siebie w swojej początkowej odpowiedzi.”

Ten problem ma realne konsekwencje, ponieważ wiele branż coraz bardziej polega na LLM-ach. Badanie to podkreśla, że nie są to maszyny czysto logiczne; posiadają własne stronniczości i mogą być poddane manipulacji. Zrozumienie tych niuansów w procesie decyzyjnym LLM-ów jest niezbędne do projektowania bezpieczniejszych i bardziej niezawodnych systemów AI, zwłaszcza w długich interakcjach z użytkownikami, gdzie najnowsza informacja może mieć nieproporcjonalny wpływ na generowane odpowiedzi.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *