OpenAI udostępnia nowe modele AI: Powrót do korzeni, czy strategiczny zwrot?
OpenAI, firma stojąca za rewolucją w dziedzinie sztucznej inteligencji, ogłosiła we wtorek udostępnienie dwóch nowych modeli wnioskowania AI, gpt-oss-120b i gpt-oss-20b. Modele te, charakteryzujące się zdolnościami zbliżonymi do flagowej serii 'o’, są od teraz swobodnie dostępne do pobrania z platformy deweloperskiej Hugging Face. Firma określa je mianem „najnowocześniejszych” w kontekście benchmarków porównujących otwarte modele.
Nowe rozwiązania dostępne są w dwóch rozmiarach: większy i bardziej zaawansowany gpt-oss-120b, który może działać na pojedynczym procesorze graficznym Nvidia, oraz lżejszy gpt-oss-20b, zdolny do pracy na laptopie konsumenckim wyposażonym w 16 GB pamięci. Premiera ta stanowi powrót OpenAI do koncepcji otwartych modeli językowych, po raz pierwszy od czasu GPT-2, wydanego ponad pięć lat temu.
Hybrydowy model otwarty
OpenAI podkreśla, że ich otwarte modele będą miały możliwość wysyłania złożonych zapytań do modeli AI działających w chmurze. Oznacza to, że jeśli otwarty model nie będzie w stanie wykonać określonego zadania, jak na przykład przetwarzanie obrazu, deweloperzy będą mogli połączyć go z jednym z bardziej zaawansowanych, zamkniętych modeli firmy. Jest to interesujące podejście hybrydowe, które może otworzyć nowe możliwości dla twórców oprogramowania.
Przez lata OpenAI preferowało podejście zamkniętoźródłowe, co umożliwiło firmie zbudowanie znaczącego biznesu, oferując dostęp do swoich modeli AI poprzez API dla przedsiębiorstw i deweloperów. Jednak, jak Sam Altman, CEO OpenAI, stwierdził w styczniu, firma mogła być „po złej stronie historii” w kwestii otwierania swoich technologii. Presja rośnie, zwłaszcza ze strony chińskich laboratoriów AI, takich jak DeepSeek, Qwen Alibaba czy Moonshot AI, które rozwinęły jedne z najbardziej zaawansowanych i popularnych otwartych modeli. Nawet Meta, dominująca wcześniej w przestrzeni otwartej AI swoimi modelami Llama, odnotowała spadek w ostatnim roku.
W lipcu, administracja amerykańska wezwała również deweloperów AI do udostępniania większej liczby technologii, aby promować globalne przyjęcie AI zgodnej z wartościami amerykańskimi. Poprzez wydanie gpt-oss, OpenAI ma nadzieję zyskać przychylność zarówno deweloperów, jak i administracji, które z niepokojem obserwują rosnącą dominację chińskich firm w przestrzeni open source.
Misja i testy wydajności
„Wracając do początku, nasza misja w OpenAI od 2015 roku polega na zapewnieniu, że AGI (Ogólna Sztuczna Inteligencja) przyniesie korzyści całej ludzkości” – powiedział Sam Altman w oświadczeniu, dodając: „Z tego względu jesteśmy podekscytowani, że świat będzie budował na otwartym stosie AI stworzonym w Stanach Zjednoczonych, opartym na demokratycznych wartościach, dostępnym za darmo dla wszystkich i dla szerokich korzyści”.
OpenAI dążyło do tego, aby ich otwarte modele stały się liderami wśród innych modeli o otwartych wagach, i firma twierdzi, że to osiągnęła. W testach, takich jak Codeforces (z narzędziami), gpt-oss-120b i gpt-oss-20b uzyskały odpowiednio 2622 i 2516 punktów, przewyższając DeepSeek R1, choć ustępując modelom o3 i o4-mini.
Na teście „Humanity’s Last Exam”, gpt-oss-120b i gpt-oss-20b uzyskały odpowiednio 19% i 17,3%. Tutaj również ustąpiły modelowi o3, ale przewyższyły czołowe otwarte modele DeepSeek i Qwen.
Wyzwania i architektura
Warto jednak zauważyć, że otwarte modele OpenAI znacznie częściej ulegają tzw. halucynacjom (generowanie nieprawdziwych, ale przekonujących informacji) niż ich najnowsze, zamknięte modele, o3 i o4-mini. Halucynacje są problemem, który wciąż spędza sen z powiek badaczom, a OpenAI przyznaje, że nie do końca rozumie ich przyczyn. Mimo to, firma wyjaśnia, że jest to „oczekiwane, gdyż mniejsze modele mają mniej wiedzy o świecie niż większe modele graniczne i mają tendencję do częstszych halucynacji”.
OpenAI zauważyło, że modele gpt-oss-120b i gpt-oss-20b halucynowały w odpowiedzi na 49% i 53% pytań w teście PersonQA, wewnętrznym benchmarku firmy mierzącym dokładność wiedzy modelu o ludziach. To ponad trzykrotnie więcej niż w przypadku modelu o1 (16%) i więcej niż w modelu o4-mini (36%).
Firma informuje, że otwarte modele zostały wytrenowane podobnymi procesami co ich, zamknięte odpowiedniki. Każdy otwarty model wykorzystuje technikę „mixture-of-experts” (MoE), aby aktywować mniejszą liczbę parametrów dla danego pytania, co zwiększa jego wydajność. Na przykład, dla gpt-oss-120b, który posiada 117 miliardów parametrów, model aktywuje tylko 5,1 miliarda parametrów na token.
Ponadto, otwarte modele OpenAI zostały wytrenowane z użyciem uczenia ze wzmocnieniem (RL) o wysokiej mocy obliczeniowej – procesu potrenowania AI, który uczy modele rozróżniania dobra od zła w symulowanych środowiskach. Ten sam proces wykorzystano do trenowania serii modeli 'o’, a otwarte modele również charakteryzują się procesem „łańcucha myśli”, w którym poświęcają dodatkowy czas i zasoby obliczeniowe na wypracowanie odpowiedzi.
Dzięki temu procesowi potrenowania, otwarte modele AI OpenAI mają być szczególnie skuteczne w zasilaniu agentów AI i są zdolne do wykorzystywania narzędzi takich jak wyszukiwanie w sieci czy wykonywanie kodu Python, jako części ich procesu „łańcucha myśli”. Należy jednak zaznaczyć, że otwarte modele OpenAI są wyłącznie tekstowe, co oznacza, że nie będą w stanie przetwarzać ani generować obrazów czy dźwięków, w przeciwieństwie do innych modeli firmy.
Licencja i obawy o bezpieczeństwo
OpenAI udostępnia gpt-oss-120b i gpt-oss-20b na licencji Apache 2.0, uważanej za jedną z najbardziej liberalnych. Licencja ta pozwoli przedsiębiorstwom na komercjalizację otwartych modeli OpenAI bez konieczności uiszczania opłat czy uzyskiwania zgody od firmy.
Jednakże, w przeciwieństwie do w pełni otwartych ofert z laboratoriów AI, takich jak AI2, OpenAI nie udostępni danych treningowych wykorzystanych do stworzenia swoich otwartych modeli. Decyzja ta nie jest zaskakująca, biorąc pod uwagę toczące się liczne procesy sądowe przeciwko dostawcom modeli AI, w tym OpenAI, w których zarzuca się im nieodpowiednie trenowanie modeli AI na materiałach chronionych prawem autorskim.
Premiera otwartych modeli OpenAI była kilkakrotnie opóźniana w ostatnich miesiącach, częściowo z powodu obaw o bezpieczeństwo. Poza standardowymi protokołami bezpieczeństwa, OpenAI zbadało, czy złe podmioty mogłyby dostroić modele gpt-oss, aby były bardziej pomocne w cyberatakach lub tworzeniu broni biologicznej czy chemicznej.
Po testach przeprowadzonych przez OpenAI oraz niezależnych ewaluatorów, firma stwierdziła, że gpt-oss może marginalnie zwiększyć możliwości biologiczne. Jednak nie znaleziono dowodów, by te otwarte modele mogły osiągnąć „wysoki poziom zagrożenia” w tych dziedzinach, nawet po dostrojeniu. Mimo że model OpenAI wydaje się być nowym standardem wśród otwartych modeli, deweloperzy z niecierpliwością oczekują na premierę DeepSeek R2, a także nowego otwartego modelu z laboratorium Meta zajmującego się superinteligencją.
