Przyszłość oceny modeli AI: Kontekst kluczem do rzetelności
Wraz z dynamicznym rozwojem sztucznej inteligencji, zwłaszcza w obszarze modeli językowych, rośnie potrzeba precyzyjnych i wiarygodnych metod ich oceny. Dotychczasowe podejścia często pomijały kluczowy element: kontekst zapytania użytkownika. Powszechne jest zadawanie pytań enigmatycznych, takich jak „Jaką książkę powinienem przeczytać?” czy „Jak działają antybiotyki?”, na które odpowiedź zależy od indywidualnych preferencji i poziomu wiedzy odbiorcy. Brak tego kontekstu prowadzi do niekonsekwentnych i subiektywnych ocen, gdzie to, co dla jednego użytkownika jest pomocne, dla innego może być bezużyteczne, a nawet szkodliwe.
Badania naukowe do tej pory koncentrowały się na generowaniu pytań uściślających lub personalizacji odpowiedzi, bazując na atrybutach użytkownika, takich jak ekspertyza czy wiek. Pojawiały się także próby adaptacji modeli do różnorodnych kontekstów. Jednakże to, co wyróżnia najnowsze podejście, to systemowe wkomponowanie syntetycznego kontekstu bezpośrednio w proces ewaluacji. Naukowcy z University of Pennsylvania, Allen Institute for AI oraz University of Maryland, College Park, zaproponowali innowacyjną metodę oceny kontekstowej, która polega na wzbogacaniu niedookreślonych zapytań o syntetyczny kontekst w postaci dodatkowych par pytań i odpowiedzi.
Ich przełomowe badania wykazały, że dodanie takiego kontekstu może znacząco wpłynąć na wyniki ewaluacji, a w niektórych przypadkach nawet odwrócić rankingi modeli językowych. Co więcej, poprawia to zgodność między ewaluatorami, zmniejszając zależność oceny od powierzchownych cech, takich jak styl. To podejście pozwoliło także na odkrycie potencjalnych błędów systemowych i uprzedzeń w domyślnych odpowiedziach modeli, zwłaszcza tych faworyzujących konteksty „WEIRD” (Western, Educated, Industrialized, Rich, Democratic). Eksperymenty jasno pokazały, że modele różnie reagują na odmienne konteksty użytkowników, co podkreśla potrzebę bardziej zniuansowanej oceny.
Proste, a jednocześnie efektywne ramy, opracowane przez zespół, polegały na wzbogacaniu popularnych datasetów o niedokreślone zapytania, dodając do nich hipotetyczne dialogi użytkownika. Następnie, odpowiedzi od różnych modeli językowych były oceniane zarówno przez ludzi, jak i przez inne modele AI, w dwóch konfiguracjach: z oryginalnym zapytaniem i z dodatkowym kontekstem. Dzięki temu można było precyzyjnie zmierzyć wpływ kontekstu na ranking modeli, zgodność ocen oraz kryteria stosowane do ich formułowania. To rozwiązanie oferuje praktyczną metodę testowania, jak modele radzą sobie z autentyczną niejednoznacznością, typową dla realnych interakcji.
Wprowadzenie kontekstu, takiego jak intencja użytkownika czy docelowa grupa odbiorców, znacząco poprawia jakość ewaluacji modeli. Zwiększa to zgodność między oceniającymi o 3–10%, a w niektórych przypadkach całkowicie zmienia hierarchię modeli. Przykładem może być sytuacja, w której GPT-4 przewyższył Gemini-1.5-Flash dopiero po uwzględnieniu kontekstu. Bez niego oceny często skupiają się na tonie czy płynności, podczas gdy kontekst przekierowuje uwagę na dokładność i przydatność. Domyślne generowanie treści przez modele często odzwierciedla uprzedzenia kulturowe — są one skierowane do zachodniej, wykształconej i szerokiej publiczności, co czyni je mniej skutecznymi dla zróżnicowanych grup użytkowników. Obecne benchmarki, które ignorują kontekst, ryzykują generowanie nierzetelnych wyników. Aby zapewnić sprawiedliwość i adekwatność w świecie rzeczywistym, oceny muszą łączyć bogate w kontekst prompty z odpowiednimi kryteriami oceniania, które odzwierciedlają autentyczne potrzeby użytkowników.
Podsumowując, wiele zapytań kierowanych do modeli językowych jest niejasnych, pozbawionych kluczowych informacji, takich jak intencja użytkownika czy poziom ekspertyzy. To sprawia, że ich ocena jest subiektywna i niewiarygodna. Proponowane kontekstowe ewaluacje, wzbogacające zapytania o dodatkowe pytania i odpowiedzi, pomagają przesunąć nacisk z powierzchownych cech na znaczące kryteria, takie jak użyteczność, a nawet mogą odwrócić rankingi modeli. Ujawnia to również ukryte uprzedzenia; modele często przyjmują domyślne założenia charakterystyczne dla społeczeństw „WEIRD”. Chociaż obecne badanie wykorzystuje ograniczony zestaw typów kontekstu i częściowo opiera się na automatycznej ocenie, stanowi silny argument za wprowadzeniem bardziej świadomych kontekstu ewaluacji w przyszłych pracach nad rozwojem i zastosowaniem AI.
