OpenAI twierdzi, że GPT-5 dorównuje ludziom w wielu zawodach. Czy to początek rewolucji na rynku pracy?
OpenAI zaprezentowało nowy benchmark o nazwie GDPval, mający na celu ocenę, jak modele AI radzą sobie w porównaniu z profesjonalistami z różnych branż. Test ten stanowi próbę zmierzenia postępów firmy w realizacji jej misji – stworzenia sztucznej inteligencji ogólnej (AGI), która będzie w stanie wykonywać zadania o wartości ekonomicznej na poziomie człowieka.
Według OpenAI, ich model GPT-5 oraz Claude Opus 4.1 od Anthropic „zbliżają się już do jakości pracy wykonywanej przez ekspertów branżowych”. Firma podkreśla jednak, że nie oznacza to natychmiastowego zastąpienia ludzi przez AI. GDPval, jak przyznaje samo OpenAI, obejmuje na razie jedynie ograniczony zakres zadań wykonywanych przez pracowników w rzeczywistości.
GDPval bazuje na dziewięciu branżach, które w największym stopniu przyczyniają się do PKB Stanów Zjednoczonych, w tym w obszarach takich jak ochrona zdrowia, finanse, produkcja i administracja publiczna. Benchmark ocenia wydajność modelu AI w 44 zawodach w tych branżach, od inżynierów oprogramowania po pielęgniarki i dziennikarzy.
W pierwszej wersji testu, GDPval-v0, doświadczeni profesjonaliści porównywali raporty wygenerowane przez AI z tymi przygotowanymi przez innych ekspertów i wybierali najlepszy. Na przykład, bankierzy inwestycyjni mieli za zadanie stworzyć analizę konkurencji dla branży dostaw ostatniej mili i porównać ją z raportami wygenerowanymi przez AI. OpenAI obliczało następnie „wskaźnik zwycięstw” modelu AI w porównaniu z ludzkimi raportami we wszystkich 44 zawodach.
GPT-5-high, ulepszona wersja GPT-5 z dodatkową mocą obliczeniową, został oceniony jako lepszy lub równy ekspertom branżowym w 40,6% przypadków. Model Claude Opus 4.1 firmy Anthropic uzyskał wynik 49%. OpenAI sugeruje, że wysoki wynik Claude’a może wynikać z jego tendencji do tworzenia atrakcyjnych wizualnie grafik, a niekoniecznie z lepszej wydajności.
Trzeba mieć na uwadze, że praca większości profesjonalistów polega na czymś więcej niż tylko na przedkładaniu raportów przełożonym, co jest jedynym kryterium oceny w GDPval-v0. OpenAI zdaje sobie z tego sprawę i planuje tworzenie bardziej kompleksowych testów w przyszłości, które będą uwzględniać więcej branż i interaktywnych procesów roboczych.
Dr Aaron Chatterji, główny ekonomista OpenAI, uważa, że wyniki GDPval sugerują, iż pracownicy w ocenianych zawodach mogą wykorzystywać modele AI do odciążenia się w mniej istotnych zadaniach. Pozwoli im to skupić się na działaniach generujących wyższą wartość dodaną.
Tejal Patwardhan z OpenAI, jest zadowolona z tempa postępu w GDPval. Model GPT-4o, wydany około 15 miesięcy temu, uzyskał wynik zaledwie 13,7% (wygrane i remisy z ludźmi). Obecny wynik GPT-5 jest prawie trzykrotnie wyższy, a Patwardhan spodziewa się, że ten trend się utrzyma.
W Dolinie Krzemowej istnieje wiele benchmarków używanych do pomiaru postępów modeli AI. GDPval może stać się ważnym narzędziem w ocenie wartości modeli AI w różnych branżach. OpenAI musi jednak opracować bardziej kompleksową wersję testu, aby móc definitywnie stwierdzić, że jego modele AI przewyższają ludzi.
