LLMWiedza

Halucynacje językowych modeli AI: dlaczego się pojawiają i jak systemy oceny pogłębiają problem

Wielkie modele językowe (LLM) notorycznie generują tak zwane „halucynacje” – pewne siebie, lecz całkowicie błędne odpowiedzi, które na pierwszy rzut oka wydają się wiarygodne. Mimo nieustannego rozwoju architektur i metod treningowych, problem ten wciąż pozostaje nierozwiązany. Nowe badania przeprowadzone przez OpenAI oferują dogłębne wyjaśnienie tego zjawiska, wskazując, że halucynacje wynikają ze statystycznych właściwości uczenia nadzorowanego i samonadzorowanego, a ich trwałość jest dodatkowo wzmacniana przez źle skalibrowane systemy oceny.

Statystyczna nieuchronność błędów

Zespół badawczy z OpenAI tłumaczy halucynacje jako błędy wpisane w naturę generatywnego modelowania. Nawet w przypadku idealnie czystych danych treningowych, funkcja straty entropii krzyżowej, powszechnie stosowana w fazie pre-treningu, stwarza presję statystyczną prowadzącą do powstawania błędów.

Badacze uprościli problem do zadania klasyfikacji binarnej o nazwie Is-It-Valid (IIV), polegającego na określeniu, czy wygenerowana odpowiedź jest poprawna, czy błędna. Udowodnili, że współczynnik błędów generatywnych modelu językowego jest co najmniej dwukrotnie wyższy niż współczynnik błędnych klasyfikacji IIV. Innymi słowy, halucynacje pojawiają się z tych samych powodów, co błędy w uczeniu nadzorowanym: niepewność epistemiczna, niedoskonałe modele, przesunięcie dystrybucji danych lub szum w danych.

Rzadkie fakty, częstsze halucynacje

Kluczowym czynnikiem wpływającym na pojawianie się halucynacji jest tak zwany współczynnik singletonów – odsetek faktów, które występują w danych treningowych tylko raz. Analogicznie do estymacji brakującej masy Gooda-Turinga, jeśli 20% faktów to singletony, to co najmniej 20% z nich będzie halucynacjami. Wyjaśnia to, dlaczego LLM-y bezbłędnie odpowiadają na pytania dotyczące powszechnie znanych faktów (np. data urodzin Einsteina), ale zawodzą w przypadku informacji rzadkich i mało znanych.

Ograniczenia modeli a halucynacje

Halucynacje mogą być również skutkiem ograniczeń samego modelu, który nie jest w stanie adekwatnie reprezentować pewnych wzorców. Klasycznym przykładem są modele n-gramowe generujące niegramatyczne zdania lub współczesne modele tokenizowane, które błędnie liczą litery, ponieważ znaki ukryte są wewnątrz tokenów podrzędnych. Te ograniczenia reprezentacyjne prowadzą do systematycznych błędów, nawet jeśli same dane są wystarczające.

Post-trening nie eliminuje halucynacji

Metody post-treningowe, takie jak RLHF (uczenie ze wzmocnieniem na podstawie opinii ludzi), DPO i RLAIF, redukują część błędów, zwłaszcza w przypadku treści szkodliwych lub teorii spiskowych. Jednak zbyt pewne siebie halucynacje pozostają problemem, ponieważ systemy oceny są źle skonfigurowane.

Podobnie jak uczniowie zgadujący odpowiedzi w testach wielokrotnego wyboru, LLM-y są nagradzane za blefowanie, gdy nie są pewne odpowiedzi. Większość benchmarków, takich jak MMLU, GPQA i SWE-bench, stosuje binarny system oceniania: poprawne odpowiedzi są punktowane, brak odpowiedzi („Nie wiem”) nie otrzymuje punktów, a błędne odpowiedzi są karane nie bardziej surowo niż brak odpowiedzi. W takim systemie zgadywanie maksymalizuje wynik w benchmarku, nawet jeśli prowadzi to do halucynacji.

Jak liderzy rankingów potęgują problem

Przegląd popularnych benchmarków pokazuje, że niemal wszystkie stosują binarny system oceniania, który nie uwzględnia częściowej poprawności odpowiedzi ani nie nagradza wyrażania niepewności. W rezultacie modele, które szczerze przyznają się do niewiedzy, wypadają gorzej niż te, które zawsze zgadują. To stwarza systemową presję na deweloperów, aby optymalizowali modele pod kątem pewnych odpowiedzi, a nie dobrze skalibrowanych.

Jak zredukować halucynacje?

Argumentuje się, że skuteczne zwalczanie halucynacji wymaga zmian społeczno-technicznych, a nie tylko nowych zestawów ewaluacyjnych. Proponują wprowadzenie jasnych celów dotyczących pewności odpowiedzi: benchmarki powinny określać kary za błędne odpowiedzi i częściowe kredyty za unikanie odpowiedzi, gdy model nie jest pewien.

Przykładowo: „Odpowiadaj tylko, jeśli jesteś pewien na >75%. Błędy kosztują 2 punkty; poprawne odpowiedzi przynoszą 1 punkt; 'Nie wiem’ daje 0 punktów”.

Taki system odzwierciedla realne egzaminy, w których zgadywanie wiąże się z ryzykiem utraty punktów. Zachęca to modele do kalibracji behawioralnej – powstrzymywania się od odpowiedzi, gdy ich pewność siebie jest poniżej progu, co prowadzi do mniejszej liczby zbyt pewnych halucynacji, przy jednoczesnej optymalizacji wyników w benchmarkach.

Implikacje

Jak się wydaje, halucynacje trzeba traktować jako przewidywalne konsekwencje celów treningowych i niedopasowania systemów oceny, a nie niewytłumaczalne anomalie modeli.

Z przeprowadzonych badań wynika, że:

  • Halucynacje są analogiczne do błędów klasyfikacji w uczeniu nadzorowanym.
  • Binarne systemy oceniania zachęcają do zgadywania.
  • Dostosowanie głównych benchmarków, by nagradzać wyrażanie niepewności, może wyrównać zachęty i poprawić wiarygodność modeli.

Łącząc problem halucynacji z teorią uczenia, badania te wyjaśniają ich pochodzenie i sugerują praktyczne strategie, które przenoszą odpowiedzialność z architektur modeli na systemy oceny.

Pozostaje nam czekać na kolejne rozwiązania systemowe, które coraz bardziej precyzyjnie pozwolą korzystać z możliwości wielkich modeli językowych bez ryzyka zatrucia odpowiedzi modeli informacjami wyciągniętymi z kapelusza.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *