Czatoboty AI tracą na niezawodności w dłuższych rozmowach
Najnowsze badanie przeprowadzone przez Microsoft i Salesforce ujawnia niepokojący trend: zaawansowane modele językowe AI tracą na niezawodności w dłuższych rozmowach. Naukowcy symulowali rzeczywiste interakcje użytkowników z asystentami AI, tworząc metodę zwaną „sharding”. Polegała ona na rozbiciu instrukcji na mniejsze podzadania, co pozwoliło zaobserwować, jak modele radzą sobie z krokami pośrednimi.
W eksperymentach, obejmujących 90-120 instrukcji podzielonych na mniejsze części, dokładność modeli AI dramatycznie spadała – z około 90% do zaledwie 51%. Ten spadek wydajności był obserwowany we wszystkich 15 badanych modelach, od mniejszych, open-source’owych, takich jak Llama-3.1-8B, po duże systemy komercyjne, jak GPT-4o. Nawet najlepsze modele – Claude 3.7 Sonnet, Gemini 2.5 Pro i GPT-4.1 – wykazywały o 30-40% gorsze wyniki w rozmowach wielorundowych w porównaniu do pojedynczych promptów. Co więcej, modele te stawały się znacznie mniej spójne, a ich wyniki różniły się znacznie bardziej niż w przypadku interakcji jednorazowych.
Przyczyny Problemów i Praktyczne Wskazówki dla Użytkowników
Badacze wskazali cztery główne problemy, które przyczyniają się do spadku niezawodności AI w dłuższych dialogach:
- Modele zbyt szybko wyciągają wnioski bez posiadania wszystkich niezbędnych szczegółów.
- Nadmiernie polegają na swoich własnych, czasami błędnych odpowiedziach.
- Pomijają informacje z środka dyskusji.
- Generują zbyt szczegółowe odpowiedzi, co prowadzi do błędnych założeń o lukach w informacji.
Próby technicznych rozwiązań, takich jak obniżenie ustawienia temperatury modelu (kontrolującego losowość) lub powtarzanie instrukcji użytkownika, nie przyniosły znaczących rezultatów. Zmiana poziomu szczegółowości instrukcji również nie pomogła. Jedynym skutecznym podejściem okazało się dostarczenie AI wszystkich informacji na samym początku.
Wyniki badania sugerują dwie praktyczne strategie dla użytkowników:
- Jeśli rozmowa zaczyna się „zacinać” lub zbaczać z kursu, lepiej rozpocząć nową konwersację, zamiast próbować naprawić problematyczną.
- Na końcu dłuższej sesji warto poprosić AI o podsumowanie wszystkich wymagań, a następnie wykorzystać to podsumowanie jako punkt wyjścia do ewentualnej nowej rozmowy.
Badacze podkreślają, że deweloperzy AI powinni kłaść większy nacisk na niezawodność w rozmowach wielorundowych. Przyszłe modele powinny być w stanie dostarczać konsekwentnie dobrych wyników, nawet gdy instrukcje są niekompletne, bez konieczności stosowania specjalnych sztuczek lub ciągłego dostosowywania parametrów.
