Egzaminator za 42 centy. Jak AI kończy erę oszustw przy pracach domowych
Egzaminy pisemne i prace domowe, które przez dekady stanowiły fundament oceny akademickiej, właśnie odeszły do lamusa. Panos Ipeirotis, profesor w NYU Stern School of Business, ogłosił koniec zaufania do form pisemnych po tym, jak prace oddawane przez studentów w ramach kursu „AI/ML Product Management” zaczęły przypominać dopracowane notatki ekspertów z McKinsey. Problem polegał na tym, że ich autorzy nie potrafili odpowiedzieć na najprostsze pytania dotyczące własnych tekstów poddanych weryfikacji w trakcie zajęć.
Przesłuchanie przez algorytm
Odpowiedzią Ipeirotisa na zalew treści generowanych przez LLM stał się powrót do tradycji egzaminu ustnego, ale w nowoczesnym wydaniu. Wspólnie z Konstantinosem Rizakosthenem stworzyli agenta głosowego opartego na technologii ElevenLabs, który przetestował 36 studentów. Każda sesja trwała średnio 25 minut i polegała na szczegółowym „przesłuchaniu” studenta z decyzji projektowych, doboru danych i metod ewaluacji modeli SI (Sztucznej Inteligencji).
Skuteczność ekonomiczna tego rozwiązania jest wręcz dewastująca dla tradycyjnego modelu nauczania. Koszt całego przedsięwzięcia zamknął się w 15 dolarach, co daje około 42 centy w przeliczeniu na jednego studenta. Gdyby egzaminy przeprowadzali ludzie, koszt asystentów dydaktycznych wyniósłby blisko 750 dolarów. W realiach akademickich taka różnica często decyduje o tym, czy weryfikacja wiedzy w ogóle się odbędzie, czy pozostanie jedynie w sferze teorii.
Rada modeli zamiast jednego profesora
Najciekawszym aspektem eksperymentu nie jest jednak sam głos bota, lecz system oceniania. Ipeirotis zastosował metodę „rady modeli” (Council of LLMs). Transkrypcje rozmów były oceniane niezależnie przez Claude’a, Gemini i ChatGPT. Co istotne, modele te nie tylko wystawiały noty, ale wchodziły ze sobą w interakcję, krytykując wzajemnie swoje uzasadnienia. Doprowadziło to do ujednolicenia ocen i wyeliminowania początkowej „łagodności” niektórych algorytmów.
Metoda ta przyniosła niespodziewany efekt uboczny: obnażyła słabe punkty samego programu nauczania. Szczegółowa analiza wykazała, że niemal wszyscy studenci polegli na pytaniach dotyczących testów A/B. To zmusiło wykładowcę do przyznania się do błędu – temat ten został po prostu potraktowany zbyt pobieżnie na wykładach. Zewnętrzny, bezstronny egzaminator zadziałał jak lustro dla jakości całego kursu.
Stres, który buduje wiarygodność
Choć technologia zadziałała, z perspektywy studentów przeżycie było dalekie od komfortu. Aż 83% badanych uznało egzamin z SI za bardziej stresujący niż klasyczny test pisemny. Pierwsza wersja agenta była też krytykowana za „protekcjonalny ton” – studenci skarżyli się, że bot na nich krzyczy lub przerywa w pół zdania. Nie obyło się bez typowych dla SI problemów z losowością; model przy prośbie o wybranie przypadku do omówienia niemal zawsze wskazywał ten sam temat, powielając ludzkie błędy poznawcze zaszyte w danych treningowych.
Mimo tych niedogodności, 70% uczestników przyznało, że taka forma egzaminu faktycznie sprawdza ich realne zrozumienie materiału. To kluczowa deklaracja w epoce, w której zdobycie dyplomu coraz częściej zależy od umiejętności odpowiedniego sformułowania promptu, a nie od wiedzy zgromadzonej w głowie. Ipeirotis udowodnił, że choć SI ułatwiła oszukiwanie, to paradoksalnie może stać się jedynym skutecznym narzędziem, które to oszustwo uniemożliwi.
