Agenci AI

Mit inteligentnych agentów. Nowe badania obnażają słabość systemów opartych na umiejętnościach

Wizja sztucznej inteligencji, która nie tylko generuje tekst, ale sprawnie posługuje się specjalistycznymi narzędziami, od miesięcy napędza rynek AI. Google, OpenAI, a przede wszystkim Anthropic ze swoim systemem Claude Code, forsują koncepcję „umiejętności” (ang. skills) – modularnych plików z wiedzą ekspercką, które agent ma samodzielnie dobierać do rozwiązywania konkretnych problemów. Nowe badanie przeprowadzone przez naukowców z UC Santa Barbara, MIT CSAIL oraz MIT-IBM Watson AI Lab rzuca jednak zimne światło na te obietnice. Okazuje się, że to, co świetnie wygląda w sterylnych testach, niemal całkowicie rozpada się w warunkach zbliżonych do rzeczywistej pracy programisty czy analityka.

Problem podpowiedzi w testach

Głównym zarzutem badaczy wobec dotychczasowych sukcesów AI jest nienaturalność powszechnie stosowanych benchmarków, takich jak SKILLSBENCH. W tradycyjnych testach agenci otrzymują starannie wyselekcjonowane, „podstawione pod nos” instrukcje. Jeśli zadaniem jest pobranie danych o powodziach, model dostaje plik z gotowym adresem URL do konkretnej stacji pomiarowej i instrukcję API. To nie jest rozwiązywanie problemu, lecz podążanie po sznurku.

W realnym świecie agent musi natomiast samodzielnie przeszukać tysiące nieuporządkowanych dokumentacji, odsiać szum i zdecydować, co jest mu naprawdę potrzebne. Aby sprawdzić, jak AI radzi sobie bez taryfy ulgowej, zespół naukowców zgromadził potężne repozytorium 34 198 autentycznych umiejętności pochodzących z otwartych źródeł. Wyniki eksperymentu, w którym modele musiały samodzielnie wyszukiwać narzędzia, są otrzeźwiające.

Regresja zamiast postępu

Najpotężniejszy testowany model, Claude Opus 4.6, w idealnych warunkach osiągał skuteczność na poziomie 55,4%. Jednak w najbardziej realistycznym scenariuszu – gdy AI musiała sama przeszukać bazę i odsiać „rozpraszacze” – jej skuteczność spadła do 38,4%. To zaledwie trzy punkty procentowe więcej niż wynik modelu, który w ogóle nie miał dostępu do bazy umiejętności.

Jeszcze gorzej sytuacja wygląda w przypadku mniej zaawansowanych systemów, takich jak Kimi K2.5 czy Qwen3.5. Tutaj posiadanie „umiejętności” okazało się wręcz szkodliwe. Modele te, próbując na siłę dopasować instrukcje do zadania, gubiły wątek i radziły sobie gorzej (około 19% skuteczności) niż wtedy, gdy polegały wyłącznie na własnej logice (ponad 21%). Nadmiar informacji nie tylko zużywał zasoby, ale aktywnie wprowadzał system w błąd.

Wąskie gardła: selekcja i adaptacja

Badacze zidentyfikowali trzy kluczowe bariery, które blokują rozwój systemów agentowych. Pierwszą jest etap selekcji – agenci często ignorują dostępne narzędzia, nawet gdy są one bardzo pomocne. Drugą stanowi niedoskonałość algorytmów wyszukiwania; nawet najlepsze metody hybrydowe rzadko dają modelowi dokładnie to, czego potrzebuje. Trzecim i być może najtrudniejszym wyzwaniem jest brak umiejętności adaptacji ogólnych procedur do specyficznych, unikalnych problemów.

Częściowym rozwiązaniem okazuje się „refinement”, czyli proces, w którym agent po pierwszej nieudanej próbie analizuje błędy i samodzielnie modyfikuje posiadaną instrukcję. Dzięki temu rozwiązaniu wyniki Claude’a podskoczyły o kilka punktów procentowych, co sugeruje, że przyszłość leży nie w dostarczaniu gotowych plików, ale w nauce dynamicznego wyciągania wniosków.

Koniec ery „Skills.json”?

Badanie to rezonuje z wcześniejszymi doniesieniami firmy Vercel, która zauważyła, że w 56% przypadków agenci po prostu zapominają skorzystać z dostępnych bibliotek umiejętności. Co ciekawe, prosty, pasywnie załadowany plik tekstowy w formacie Markdown (AGENTS.md) osiągał w testach Vercel skuteczność bliską 100%, podczas gdy skomplikowane systemy „modularnych umiejętności” zatrzymywały się znacznie niżej.

Wnioski dla branży są jasne: obecny entuzjazm wokół autonomicznych agentów wymaga radykalnego zwrotu w stronę lepszych metod wyszukiwania informacji i budowania systemów, które rozumieją kontekst, a nie tylko ślepo podążają za instrukcjami wczytanymi z bazy danych. Bez tego agenci AI pozostaną jedynie sprawnymi demonstratorami w kontrolowanych warunkach laboratoryjnych.