Narzędzia AI do kodowania spowalniają doświadczonych deweloperów, kwestionując obiecane zyski produktywności
W ostatnich latach rynek narzędzi do kodowania opartych na sztucznej inteligencji, takich jak Cursor czy GitHub Copilot, przeżywa rozkwit. Obietnice zwiększenia produktywności poprzez automatyczne generowanie kodu, wykrywanie błędów i usprawnianie procesów testowych stały się normą. Za tymi rozwiązaniami stoją zaawansowane modele AI od gigantów takich jak OpenAI, Google DeepMind, Anthropic czy xAI, których możliwości systematycznie rosną.
Niemniej jednak, najnowsze badanie opublikowane przez METR, niezależną organizację badawczą zajmującą się AI, stawia pod znakiem zapytania realne korzyści z tych narzędzi, szczególnie w kontekście doświadczonych deweloperów. Badanie to podważa jednostronną narrację o niekwestionowanym wzroście efektywności.
Spowolnienie zamiast przyspieszenia: Wyniki badania METR
METR przeprowadził randomizowane badanie kontrolne z udziałem 16 doświadczonych deweloperów open source, którzy realizowali łącznie 246 rzeczywistych zadań w dużych repozytoriach kodu, do których regularnie wnoszą wkład. Zadania te podzielono na dwie grupy: „AI-allowed”, gdzie dozwolono użycie narzędzi AI (głównie Cursor Pro), oraz „AI-forbidden”, gdzie takie narzędzia były zabronione.
Przed przystąpieniem do zadań deweloperzy przewidywali, że użycie AI skróci czas ich pracy średnio o 24%. Rzeczywistość okazała się zaskakująca. Badacze METR stwierdzili, że „pozwolenie na użycie AI faktycznie zwiększało czas realizacji zadań o 19% – deweloperzy pracowali wolniej, używając narzędzi AI”.
Warto odnotować, że tylko 56% deweloperów biorących udział w eksperymencie miało wcześniejsze doświadczenie z narzędziem Cursor, choć niemal wszyscy (94%) korzystali z innych modeli językowych (LLM) w swojej pracy. Badacze zadbali o odpowiednie przeszkolenie uczestników w obsłudze Curora przed rozpoczęciem badania, minimalizując wpływ początkowej niewprawy.
Dlaczego AI spowolniła deweloperów?
Badacze METR wskazują na kilka potencjalnych przyczyn zaobserwowanego spowolnienia. Kluczowym czynnikiem wydaje się być nadmierne poświęcanie czasu na pisanie promptów i oczekiwanie na odpowiedzi od AI, zamiast skupienia się na bezpośrednim kodowaniu. Ponadto, narzędzia AI często napotykają trudności w pracy z dużymi i złożonymi bazami kodu, które były przedmiotem testów w badaniu.
Ograniczenia i szerszy kontekst
Autorzy badania podkreślają, że ich wnioski nie są ostateczne i apelują o powściągliwość w interpretacji. Zaznaczają, że nie oznacza to, iż systemy AI są bezużyteczne dla większości deweloperów. Inne, zakrojone na szeroką skalę badania, wskazują na pozytywny wpływ narzędzi AI na produktywność, na przykład wzrost o 26%.
Co więcej, postęp w dziedzinie AI jest na tyle dynamiczny, że wyniki te mogą szybko stać się nieaktualne. METR sam wcześniej odnotował znaczną poprawę zdolności narzędzi AI w realizacji skomplikowanych zadań długoterminowych w ostatnich latach. Badanie to jest więc raczej sygnałem ostrzegawczym przed bezkrytycznym optymizmem, a nie wyrokiem ostatecznym.
Niemniej jednak, to badanie METR dołącza do rosnącej listy dowodów, które kwestionują utopię nieograniczonych zysków produktywności z narzędzi AI. Wcześniejsze analizy wskazywały na to, że kod generowany przez AI może wprowadzać błędy, a nawet luki bezpieczeństwa. Całość rysuje obraz, w którym narzędzia AI dla deweloperów, zwłaszcza te określane jako „vibe coders”, wymagają ostrożnego i świadomego podejścia. Nie są one panaceum, które automatycznie przyspieszy każdy proces, a ich efektywność w dużej mierze zależy od kontekstu i doświadczenia użytkownika.
