Abstrakcyjny labirynt danych, prowadzący do ciemnego ekranu. Metafora zawodności inteligentnych agentów.

Mit inteligentnych agentów. Nowe badania obnażają słabość systemów opartych na umiejętnościach

2026-04-12 AI Sight

Wizja sztucznej inteligencji, która nie tylko generuje tekst, ale sprawnie posługuje się specjalistycznymi narzędziami, od miesięcy napędza rynek AI. Google, OpenAI, a przede wszystkim Anthropic ze swoim systemem Claude Code, forsują koncepcję „umiejętności” (ang. skills) – modularnych plików z wiedzą ekspercką, które agent ma samodzielnie dobierać do rozwiązywania konkretnych problemów. Nowe badanie przeprowadzone przez naukowców z UC Santa Barbara, MIT CSAIL oraz MIT-IBM Watson AI Lab rzuca jednak zimne światło na te obietnice. Okazuje się, że to, co świetnie wygląda w sterylnych testach, niemal całkowicie rozpada się w warunkach zbliżonych do rzeczywistej pracy programisty czy analityka.

Problem podpowiedzi w testach

Głównym zarzutem badaczy wobec dotychczasowych sukcesów AI jest nienaturalność powszechnie stosowanych benchmarków, takich jak SKILLSBENCH. W tradycyjnych testach agenci otrzymują starannie wyselekcjonowane, „podstawione pod nos” instrukcje. Jeśli zadaniem jest pobranie danych o powodziach, model dostaje plik z gotowym adresem URL do konkretnej stacji pomiarowej i instrukcję API. To nie jest rozwiązywanie problemu, lecz podążanie po sznurku.

W realnym świecie agent musi natomiast samodzielnie przeszukać tysiące nieuporządkowanych dokumentacji, odsiać szum i zdecydować, co jest mu naprawdę potrzebne. Aby sprawdzić, jak AI radzi sobie bez taryfy ulgowej, zespół naukowców zgromadził potężne repozytorium 34 198 autentycznych umiejętności pochodzących z otwartych źródeł. Wyniki eksperymentu, w którym modele musiały samodzielnie wyszukiwać narzędzia, są otrzeźwiające.

Regresja zamiast postępu

Najpotężniejszy testowany model, Claude Opus 4.6, w idealnych warunkach osiągał skuteczność na poziomie 55,4%. Jednak w najbardziej realistycznym scenariuszu – gdy AI musiała sama przeszukać bazę i odsiać „rozpraszacze” – jej skuteczność spadła do 38,4%. To zaledwie trzy punkty procentowe więcej niż wynik modelu, który w ogóle nie miał dostępu do bazy umiejętności.

Jeszcze gorzej sytuacja wygląda w przypadku mniej zaawansowanych systemów, takich jak Kimi K2.5 czy Qwen3.5. Tutaj posiadanie „umiejętności” okazało się wręcz szkodliwe. Modele te, próbując na siłę dopasować instrukcje do zadania, gubiły wątek i radziły sobie gorzej (około 19% skuteczności) niż wtedy, gdy polegały wyłącznie na własnej logice (ponad 21%). Nadmiar informacji nie tylko zużywał zasoby, ale aktywnie wprowadzał system w błąd.

Wąskie gardła: selekcja i adaptacja

Badacze zidentyfikowali trzy kluczowe bariery, które blokują rozwój systemów agentowych. Pierwszą jest etap selekcji – agenci często ignorują dostępne narzędzia, nawet gdy są one bardzo pomocne. Drugą stanowi niedoskonałość algorytmów wyszukiwania; nawet najlepsze metody hybrydowe rzadko dają modelowi dokładnie to, czego potrzebuje. Trzecim i być może najtrudniejszym wyzwaniem jest brak umiejętności adaptacji ogólnych procedur do specyficznych, unikalnych problemów.

Częściowym rozwiązaniem okazuje się „refinement”, czyli proces, w którym agent po pierwszej nieudanej próbie analizuje błędy i samodzielnie modyfikuje posiadaną instrukcję. Dzięki temu rozwiązaniu wyniki Claude’a podskoczyły o kilka punktów procentowych, co sugeruje, że przyszłość leży nie w dostarczaniu gotowych plików, ale w nauce dynamicznego wyciągania wniosków.

Koniec ery „Skills.json”?

Badanie to rezonuje z wcześniejszymi doniesieniami firmy Vercel, która zauważyła, że w 56% przypadków agenci po prostu zapominają skorzystać z dostępnych bibliotek umiejętności. Co ciekawe, prosty, pasywnie załadowany plik tekstowy w formacie Markdown (AGENTS.md) osiągał w testach Vercel skuteczność bliską 100%, podczas gdy skomplikowane systemy „modularnych umiejętności” zatrzymywały się znacznie niżej.

Wnioski dla branży są jasne: obecny entuzjazm wokół autonomicznych agentów wymaga radykalnego zwrotu w stronę lepszych metod wyszukiwania informacji i budowania systemów, które rozumieją kontekst, a nie tylko ślepo podążają za instrukcjami wczytanymi z bazy danych. Bez tego agenci AI pozostaną jedynie sprawnymi demonstratorami w kontrolowanych warunkach laboratoryjnych.