AI w pracy freelancera: test, który ostudza entuzjazm, ale nie rozwiewa wątpliwości
W świetle dynamicznego rozwoju sztucznej inteligencji, spekulacje na temat jej zdolności do zastępowania ludzkiej pracy stają się coraz głośniejsze. Ostatnie badania przeprowadzone przez Scale AI i Center for AI Safety (CAIS) oferują jednak bardziej zniuansowany obraz, wskazując, że nawet najbardziej zaawansowane agenty AI wciąż mają spore trudności z wykonywaniem zadań freelanserskich, które mają konkretną wartość ekonomiczną.
Nowy wskaźnik, Remote Labor Index (Indeks Pracy Zdalnej), miał na celu zmierzenie, jak dobrze czołowe modele AI radzą sobie z automatyzacją pracy. Wyniki są jednoznaczne: najlepsze z testowanych agentów zdołały wykonać mniej niż 3 procent zleconych zadań, generując zaledwie 1810 dolarów z potencjalnych 143 991 dolarów. Wśród ocenianych narzędzi znalazły się m.in. Manus (chiński startup), Grok (xAI), Claude (Anthropic), ChatGPT (OpenAI) oraz Gemini (Google).
Dan Hendrycks, dyrektor CAIS, podkreśla, że choć odnotowano znaczącą poprawę w funkcjonowaniu niektórych agentów AI w ciągu ostatniego roku, nie ma gwarancji utrzymania tego tempa rozwoju. „Mam nadzieję, że to daje znacznie dokładniejsze wrażenie tego, co dzieje się z możliwościami AI” – stwierdził Hendrycks.
Mit o zastąpieniu pracowników
Postęp w dziedzinie AI, szczególnie w ostatnich latach, doprowadził do śmiałych prognoz dotyczących szybkiego przekroczenia ludzkiej inteligencji i masowego zastąpienia siły roboczej. Już w marcu Dario Amodei, CEO Anthropic, sugerował, że nawet 90 procent pracy programistycznej mogłoby zostać zautomatyzowane w ciągu zaledwie kilku miesięcy. To nie pierwszy raz, kiedy tego typu przewidywania pojawiają się wraz z kolejnymi falami rozwoju AI – podobne obawy dotyczyły wcześniej np. radiologów.
Badacze z Scale AI i CAIS stworzyli zestaw zadań freelanserskich, bazując na zweryfikowanych zleceniach z platformy Upwork. Zakres prac obejmował projektowanie graficzne, edycję wideo, rozwój gier, a także zadania administracyjne, takie jak pozyskiwanie danych. Każde zadanie zawierało szczegółowy opis, niezbędne pliki i przykład ukończonego projektu wykonanego przez człowieka.
Hendrycks zwraca uwagę, że choć modele AI stały się lepsze w kodowaniu, matematyce i logicznym rozumowaniu, wciąż mają problemy z efektywnym wykorzystaniem różnorodnych narzędzi i realizacją złożonych zadań wieloetapowych. „Nie mają długoterminowej pamięci ani możliwości ciągłej nauki na podstawie doświadczeń. Nie potrafią 'nauczyć się w pracy’ jak ludzie” – dodaje.
Kontrowersje wokół oceny zdolności AI
Analiza Remote Labor Index stanowi bezpośrednią polemikę z wcześniejszymi benchmarkami, takimi jak opublikowany we wrześniu przez OpenAI, GDPval, który miał mierzyć ekonomicznie wartościową pracę. Według OpenAI, modele takie jak GPT-5 mają zbliżać się do ludzkich możliwości w 220 zadaniach z różnych obszarów pracy biurowej. OpenAI nie odniosło się do wyników najnowszego badania.
Bing Liu, dyrektor ds. badań w Scale AI, zauważa: „Przez lata dyskutowaliśmy o AI i miejscach pracy, ale większość tych dyskusji miała charakter hipotetyczny lub teoretyczny.” Liu i Hendrycks przyznają, że Remote Labor Index nie jest doskonałym miernikiem ekonomicznego wpływu AI. Wiele zawodów obejmuje zadania nieobjęte tym badaniem, a w rzeczywistości wielu freelancerów wykorzystuje AI jako narzędzie wspierające ich produktywność.
Mimo to, idea, że AI już teraz przejmuje miejsca pracy, zyskuje na popularności. Przykładem są niedawne ogłoszenia Amazona o redukcji 14 tysięcy miejsc pracy, którą częściowo tłumaczono szybkim rozwojem generatywnej sztucznej inteligencji. Beth Galetti, starszy wiceprezes ds. doświadczeń pracowników i technologii w Amazonie, określiła tę generację AI jako „najbardziej transformacyjną technologię, jaką widzieliśmy od czasów internetu”.
Jeśli jednak wierzyć wynikom Remote Labor Index, to raczej mało prawdopodobne, że AI w najbliższym czasie zajmie te zwolnione stanowiska w autonomiczny sposób. Pozostaje pytanie, jak szybko i w jakim kierunku będą ewoluować zdolności agentów AI, by sprostać złożoności ludzkiej pracy, zwłaszcza w kontekście freelancingu.
