Programowanie

Minimalny wynik, maksymalny problem: nowy test K Prize obnaża luki w zdolnościach AI do kodowania

W środowisku sztucznej inteligencji, gdzie obietnice tworzenia w pełni autonomicznych programistów AI są na porządku dziennym, pierwsze rezultaty K Prize rzucają nowe światło na rzeczywiste możliwości tych systemów. Konkurs, zainicjowany przez Instytut Laude we współpracy z Databricks i współzałożycielem Perplexity, Andym Konwinskiem, miał za zadanie ocenić, jak dobrze modele AI radzą sobie z autentycznymi wyzwaniami programistycznymi.

Zwycięzcą pierwszej edycji K Prize został brazylijski inżynier promptów, Eduardo Rocha de Andrade, który otrzymał nagrodę w wysokości 50 000 dolarów. Jednak to nie jego zwycięstwo, lecz zaskakująco niski wynik, wzbudził największe zainteresowanie. Andrade rozwiązał poprawnie zaledwie 7,5% pytań, co wyznacza nowy, niepokojąco niski standard dla oprogramowania wspomaganego AI.

Wyzwanie weryfikujące rzeczywistość

Andy Konwinski, komentując rezultaty, podkreślił, że „benchmarki powinny być trudne, jeśli mają mieć znaczenie”. To właśnie ta trudność, w połączeniu z wymogiem działania offline i ograniczonymi zasobami obliczeniowymi, miała na celu wyrównanie szans, sprzyjając mniejszym i otwartym modelom. Jak sam przyznaje, cieszy go, że test okazał się „rzeczywiście trudny”, co kontrastuje z powszechnym przekonaniem o rzekomej łatwości, z jaką AI radzi sobie z wyzwaniami programistycznymi.

Konwinski zadeklarował również, że przeznaczy milion dolarów dla pierwszego modelu open-source, który osiągnie wynik powyżej 90% w tym teście, co stanowi jasny sygnał, co do oczekiwanego poziomu kompetencji.

Podobnie jak uznany system SWE-Bench, K Prize analizuje zdolność modeli do rozwiązywania problemów programistycznych poprzez testowanie ich na realnych zgłoszeniach błędów z GitHub. Jednak kluczową różnicą jest podejście K Prize do problemu kontaminacji danych. Podczas gdy SWE-Bench wykorzystuje ustalony zestaw problemów, na których modele mogły być trenowane, K Prize został zaprojektowany jako „wolna od zanieczyszczeń” wersja SWE-Bench. Organizatorzy konkursu budują testy wyłącznie na podstawie zgłoszeń z GitHub opublikowanych po terminie złożenia modeli, co ma zapobiec celowemu trenowaniu modeli na konkretnych problemach testowych.

Kontaminacja czy prawdziwa ocena?

Wynik 7,5% w K Prize jawi się w ostrym kontraście do wyników osiąganych w SWE-Bench, gdzie najwyższe noty sięgają 75% w łatwiejszym teście „Verified” i 34% w trudniejszym teście „Full”. Konwinski nie ma jeszcze pewności, czy ta dysproporcja wynika z kontaminacji danych w SWE-Bench, czy po prostu z trudności w pozyskiwaniu nowych, nieznanych problemów z GitHub. Jedno jest pewne: K Prize ma przynieść odpowiedź na to pytanie.

W obliczu rosnącej liczby ogólnodostępnych narzędzi do kodowania wspomaganych AI, tak niskie wyniki mogą wydawać się zaskakujące. Jednak dla wielu ekspertów, w tym badacza z Princeton Sayasha Kapoora, projekty takie jak K Prize są niezbędnym krokiem w kierunku rozwiązania narastającego problemu oceny sztucznej inteligencji. Kapoor podkreśla, że bez tego typu eksperymentów trudno jest stwierdzić, czy problemem jest kontaminacja, czy po prostu ukierunkowanie na wyniki w rankingach, często z udziałem człowieka.

Dla Konwińskiego K Prize to nie tylko lepszy benchmark, ale przede wszystkim otwarte wyzwanie dla całej branży. „Jeśli słuchać całego tego szumu, wydaje się, że powinniśmy mieć już lekarzy, prawników i inżynierów oprogramowania napędzanych AI, ale to po prostu nieprawda” – mówi. „Jeśli nie możemy osiągnąć nawet 10% w teście SWE-Bench wolnym od zanieczyszczeń, to jest to dla mnie kubeł zimnej wody.”

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *