Agenci AI

Agent AI: wizja OpenAI zmienia paradygmat interakcji z technologią

W świetle ostatnich osiągnięć OpenAI, zwłaszcza modelu o1, Dolina Krzemowa coraz intensywniej spogląda w kierunku wszechstronnych agentów sztucznej inteligencji. Prace nad rozwojem tych systemów, zdolnych do wykonywania złożonych zadań komputerowych w sposób przypominający ludzką interwencję, stanowią obecnie priorytet dla firmy stojącej za sukcesem ChatGPT.

Hunter Lightman, badacz w OpenAI od 2022 roku, był świadkiem globalnego rozgłosu ChatGPT. W tle tego sukcesu, jego zespół MathGen, skupiał się na nauczaniu modeli OpenAI rozwiązywania zadań z konkursów matematycznych na poziomie licealnym. Ta pozornie niszowa dziedzina okazała się kluczowa dla rozwoju przełomowych modeli rozumowania AI. Jak podkreśla Lightman, początkowo modele „nie były dobre w matematycznym rozumowaniu”. Dziś, mimo wciąż obecnych ograniczeń, takich jak halucynacje czy trudności z kompleksowymi zadaniami, postęp jest znaczący. Jeden z modeli OpenAI zdobył nawet złoty medal na Międzynarodowej Olimpiadzie Matematycznej.

OpenAI wierzy, że rozwinięte zdolności rozumowania przełożą się na inne dziedziny, ostatecznie napędzając ogólne agenty AI – wizję, którą firma od dawna pielęgnowała. Sam Altman, CEO OpenAI, podczas konferencji dla deweloperów w 2023 roku, podkreślił potencjał tych technologii: „Ostatecznie wystarczy poprosić komputer o to, czego potrzebujesz, a on wykona wszystkie te zadania za ciebie. Te możliwości są często określane w dziedzinie AI jako agenty. Korzyści będą ogromne.”

Rewolucja z modelem o1 i wzmocnione uczenie

Niezależnie od tego, czy agenty spełnią wizję Altmana, premiera pierwszego modelu rozumowania AI OpenAI, o1, jesienią 2024 roku wstrząsnęła światem. W niespełna rok później, 21 fundamentalnych badaczy stojących za tym przełomem stało się najbardziej pożądanym talentem w Dolinie Krzemowej. Mark Zuckerberg zwerbował pięciu z nich do nowej jednostki Meta zajmującej się superinteligencją, oferując pakiety wynagrodzeń przekraczające 100 milionów dolarów. Shengjia Zhao, jeden z nich, został niedawno mianowany głównym naukowcem Meta Superintelligence Labs.

Powstanie modeli rozumowania OpenAI i agentów jest ściśle związane z techniką uczenia maszynowego zwaną uczeniem ze wzmocnieniem (RL). RL dostarcza modelowi AI informację zwrotną na temat poprawności jego wyborów w symulowanych środowiskach. Choć RL było używane od dziesięcioleci, to dopiero w 2023 roku OpenAI dokonało przełomu (początkowo nazwanego „Q*”, a później „Strawberry”), łącząc duże modele językowe (LLM), uczenie ze wzmocnieniem i technikę „test-time computation”. Ta ostatnia, zapewniając modelom dodatkowy czas i moc obliczeniową na planowanie i rozwiązywanie problemów, weryfikowanie kolejnych kroków przed udzieleniem odpowiedzi, była kluczowa. To pozwoliło OpenAI na wprowadzenie podejścia „łańcucha myśli” (chain-of-thought – CoT), które znacząco poprawiło wydajność AI w rozwiązywaniu problemów matematycznych, z którymi modele wcześniej się nie stykały. „Widziałem, jak model zaczyna rozumować” – powiedział El Kishky.”Zauważał błędy i wycofywał się, frustrował. Naprawdę czułem się, jakbym czytał myśli człowieka.” Choć poszczególne techniki nie były nowe, to unikalne połączenie ich przez OpenAI zaowocowało „Strawberry”, co bezpośrednio doprowadziło do rozwoju o1.

Eksperymenty z rozumowaniem AI a cel: agenci ogólnego przeznaczenia

OpenAI szybko zidentyfikowało, że zdolności planowania i weryfikacji faktów modeli rozumowania AI mogą być wykorzystane do napędzania agentów AI. „Rozwiązaliśmy problem, nad którym męczyłem się przez kilka lat” – powiedział Lightman. „To był jeden z najbardziej ekscytujących momentów w mojej karierze badawczej”. Po przełomie z „Strawberry” w 2023 roku, OpenAI utworzyło zespół „Agentów”, kierowany przez Daniela Selsama, aby kontynuować prace nad tym nowym paradygmatem. Prace tego zespołu zostały włączone do większego projektu rozwoju modelu rozumowania o1, pod kierownictwem współzałożyciela OpenAI Ilii Sutskevera, dyrektora ds. badań Marka Chena oraz głównego naukowca Jakuba Pachockiego. Stworzenie o1 wymagało przekierowania cennych zasobów – głównie talentów i procesorów graficznych (GPU).

Odpowiedź na pytanie, czym jest „rozumowanie” dla AI, wciąż pozostaje przedmiotem debaty, ale OpenAI koncentruje się na użyteczności. Jak wyjaśnia El Kishky, „uczymy model, jak efektywnie wykorzystywać obliczenia do uzyskania odpowiedzi. Więc jeśli zdefiniujemy to w ten sposób, tak, to jest rozumowanie”. Lightman z kolei skupia się na rezultatach modelu, a nie na środkach, czy ich związku z ludzkim mózgiem: „Jeśli model wykonuje trudne rzeczy, to robi to z niezbędnym przybliżeniem rozumowania, aby to osiągnąć”.

Obecnie, agenci AI na rynku sprawdzają się najlepiej w dobrze zdefiniowanych, weryfikowalnych zastosowaniach, takich jak programowanie. Przykładem jest agent Codex OpenAI, wspierający inżynierów oprogramowania, czy narzędzia Anthropic, popularne w środowiskach deweloperskich. Jednak wszechstronne agenty AI, jak ChatGPT Agent czy Perplexity’s Comet, napotykają trudności z realizacją złożonych, subiektywnych zadań, takich jak zakupy online czy szukanie miejsca parkingowego.

„Jak wiele problemów w uczeniu maszynowym, to problem danych” – powiedział Lightman. „Badania, które mnie obecnie ekscytują, dotyczą tego, jak trenować modele na mniej weryfikowalnych zadaniach. Mamy pewne wskazówki, jak to robić.” Noam Brown, badacz OpenAI, który pomógł stworzyć model IMO i o1, twierdzi, że OpenAI posiada nowe, wszechstronne techniki uczenia ze wzmocnieniem, pozwalające uczyć modele AI umiejętności, które nie są łatwe do weryfikacji. To właśnie w ten sposób firma zbudowała model, który zdobył złoty medal na IMO. Model IMO to nowszy system AI, który generuje wiele agentów, które jednocześnie eksplorują kilka pomysłów, a następnie wybierają najlepszą możliwą odpowiedź. Tego typu modele stają się coraz bardziej popularne; Google i xAI niedawno wydały najnowocześniejsze modele wykorzystujące tę technikę. „Myślę, że te modele staną się bardziej zdolne w matematyce, i myślę, że staną się bardziej zdolne również w innych obszarach rozumowania” – powiedział Brown. „Postęp był niezwykle szybki. Nie widzę powodu, by sądzić, że zwolni.”

Te techniki mogą pomóc modelom OpenAI zwiększyć wydajność, a te zdobycze mogą pojawić się w nadchodzącym modelu GPT-5. OpenAI ma nadzieję umocnić swoją pozycję lidera w stosunku do konkurentów, oferując najlepszy model AI do zasilania agentów dla deweloperów i konsumentów. Firma chce również uczynić swoje produkty prostszymi w użyciu. El Kishky mówi, że OpenAI chce rozwijać agenty AI, które intuicyjnie rozumieją, czego chcą użytkownicy, bez konieczności wybierania konkretnych ustawień. Twierdzi, że OpenAI dąży do budowy systemów AI, które rozumieją, kiedy użyć określonych narzędzi i jak długo powinny „rozumować”.

To maluje obraz ostatecznej wersji ChatGPT: agenta, który może zrobić wszystko w internecie za użytkownika i rozumie, jak ma to być zrobione. To znacznie inny produkt niż obecny ChatGPT, ale badania firmy zmierzają wyraźnie w tym kierunku. Choć OpenAI bez wątpienia prowadziło w branży AI kilka lat temu, firma stoi teraz przed grupą godnych przeciwników. Pytanie nie brzmi już tylko, czy OpenAI jest w stanie zrealizować swoją agentową przyszłość, ale czy firma może to zrobić, zanim wyprzedzą ją w tym Google, Anthropic, xAI, czy Meta.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *