Nowy benchmark Salesforce’a: duże modele językowe AI zawodzą w rzeczywistych scenariuszach biznesowych
Najnowszy raport Salesforce’a dotyczący benchmarku CRMArena-Pro ujawnia poważne wyzwania, przed którymi stoją agenci AI w kontekście biznesowym. Nawet najlepsze modele, takie jak Gemini 2.5 Pro, osiągają jedynie 58-procentową skuteczność w prostych zadaniach. W przypadku dłuższych dialogów ich wydajność spada do 35 procent.
CRMArena-Pro został zaprojektowany do testowania, jak dobrze duże modele językowe (LLM) mogą funkcjonować jako agenty w rzeczywistych warunkach biznesowych, szczególnie w zadaniach CRM, takich jak sprzedaż, obsługa klienta i ustalanie cen. Benchmark opiera się na oryginalnym CRMArena, dodając więcej funkcji biznesowych, dialogi wieloetapowe oraz testy prywatności danych.
Wydajność LLM w praktyce
W prostych, jednoturniejowych zadaniach nawet zaawansowane modele takie jak Gemini 2.5 Pro osiągają maksymalnie około 58 procent dokładności. Gdy system musi obsłużyć wieloetapowe konwersacje – zadając pytania, aby uzupełnić brakujące szczegóły – wydajność spada do zaledwie 35 procent.
Salesforce przeprowadził rozległe testy z dziewięcioma LLM i stwierdził, że większość modeli ma trudności z zadaniem właściwych pytań uzupełniających. W przeglądzie 20 nieudanych zadań wieloetapowych z Gemini 2.5 Pro, prawie połowa nie powiodła się, ponieważ model nie zapytał o kluczowe informacje. Modele, które zadają więcej pytań, radzą sobie lepiej w takich scenariuszach.
Prywatność danych pozostaje wyzwaniem
Benchmark ujawnia także luki w ochronie danych. Domyślnie LLM prawie nigdy nie rozpoznają lub nie odmawiają żądań dotyczących wrażliwych informacji, takich jak dane osobowe lub wewnętrzne dane firmy. Dopiero po dostosowaniu promptu systemowego, aby wyraźnie odwoływał się do wytycznych dotyczących prywatności, modele zaczęły odrzucać te żądania, ale kosztem ogólnej wydajności.
Na przykład GPT-4o zwiększył wykrywanie poufnych danych z zera do 34,2 procent, ale jego wskaźnik ukończenia zadań spadł o 2,7 punktu. Modele open-source, takie jak LLaMA-3.1, były jeszcze mniej wrażliwe na zmiany promptów, co sugeruje, że potrzebują lepszego treningu, aby podążać za priorytetowymi instrukcjami.
