GPT-4 górą w testach jakości obsługi klienta: Nowa metoda oceny LLM w akcji
W dynamicznie rozwijającym się świecie sztucznej inteligencji, efektywna ocena modeli językowych (LLM) staje się kluczowa. Tradycyjne metody, polegające na przypisywaniu ocen numerycznych, często okazują się niewystarczające do uchwycenia niuansów i subtelności językowych. Alternatywą jest metoda 'Arena-as-a-Judge’, która poprzez bezpośrednie porównania odpowiedzi generowanych przez różne modele, pozwala na bardziej precyzyjną i kontekstową ocenę ich jakości.
W niedawnym eksperymencie, którego celem było określenie, który model lepiej radzi sobie z obsługą klienta, zastosowano właśnie to podejście. Do generowania odpowiedzi wykorzystano modele GPT-4 i Gemini 2.5 Pro, a rolę sędziego pełnił GPT-5. Scenariusz testowy oparto na prostej wiadomości e-mail od klienta zgłaszającego problem z zamówieniem.
Kontekst testowy: E-mail od klienta
Treść wiadomości e-mail, na podstawie której modele miały wygenerować odpowiedź:
„Szanowni Państwo,
Zamówiłem mysz bezprzewodową w zeszłym tygodniu, ale otrzymałem klawiaturę.
Czy możecie to Państwo jak najszybciej rozwiązać?
Dziękuję,
Jan Kowalski”
Przebieg testu i metryka oceny
Modele GPT-4 i Gemini 2.5 Pro otrzymały to samo zadanie: napisać odpowiedź na powyższego e-maila. Następnie, ich odpowiedzi zostały poddane ocenie przez GPT-5, który pełnił rolę sędziego. Kluczowym kryterium była jakość obsługi klienta, mierzona poprzez balans pomiędzy empatią, profesjonalizmem i klarownością. Oceniano, która odpowiedź jest bardziej uprzejma, zrozumiała i zwięzła.
Wyniki i wnioski
Wyniki testu wykazały, że GPT-4 znacząco przewyższył Gemini 2.5 Pro w generowaniu odpowiedzi na e-mail od klienta. Odpowiedź GPT-4 charakteryzowała się zwięzłością, uprzejmością i skupieniem na działaniu. Model przeprosił za pomyłkę, potwierdził problem i jasno wyjaśnił kolejne kroki, takie jak wysłanie właściwego produktu i instrukcje dotyczące zwrotu. Ton odpowiedzi był pełen szacunku i zrozumienia dla sytuacji klienta.
Odpowiedź Gemini 2.5 Pro, choć również empatyczna i szczegółowa, zawierała zbędne komentarze i opcje, co negatywnie wpłynęło na jej klarowność i profesjonalizm. To podkreśla zdolność GPT-4 do dostarczania skoncentrowanej i zorientowanej na klienta komunikacji, która jest zarazem profesjonalna i pełna troski.
Metoda 'Arena-as-a-Judge’ oferuje nową perspektywę na ocenę modeli językowych, która idzie o krok dalej niż tradycyjne metryki. Dzięki bezpośrednim porównaniom, możliwe jest wychwycenie subtelnych różnic w jakości i efektywności generowanych odpowiedzi, co w konsekwencji prowadzi do rozwoju lepszych i bardziej użytecznych systemów AI.
