Abstrakcyjna wizja Doliny Krzemowej jako środowiska treningowego AI: neonowe obwody, cyfrowe postacie, futurystyczny pejzaż.

Wyścig zbrojeń w Dolinie Krzemowej: Inwestycje w środowiska do trenowania agentów AI sięgają zenitu

2025-09-17 AI Sight

Od kilku lat prezesi największych firm technologicznych roztaczają wizje agentów AI, którzy samodzielnie obsługują aplikacje i wykonują zadania za ludzi. Jednak obecne możliwości ChatGPT Agent od OpenAI czy Comet od Perplexity wciąż są mocno ograniczone. Kluczem do stworzenia bardziej niezawodnych agentów AI mogą być nowe techniki, a jedną z nich jest symulacja przestrzeni roboczych, w których agenci trenują wykonywanie złożonych zadań. Takie środowiska uczenia przez wzmacnianie (ang. reinforcement learning, RL) stają się równie ważne dla rozwoju agentów AI, jak wcześniej zestawy danych.

Jak donosi TechCrunch, wiodące laboratoria AI zgłaszają rosnące zapotrzebowanie na tego typu środowiska. Powstaje coraz więcej startupów, które chcą im je dostarczać. „Wszystkie duże laby AI budują wewnętrznie środowiska RL”, mówi Jennifer Li, partner w Andreessen Horowitz. „Jednak tworzenie takich zbiorów danych jest bardzo złożone, dlatego laboratoria rozglądają się za zewnętrznymi dostawcami, którzy mogą tworzyć wysokiej jakości środowiska i testy. Wszyscy się temu przyglądają”.

Pojawiła się nowa generacja startupów z dużym kapitałem, takich jak Mechanize Work i Prime Intellect, które chcą dominować w tej dziedzinie. Także firmy zajmujące się etykietowaniem danych, jak Mercor i Surge, inwestują w środowiska RL, aby nadążyć za zmianami w branży. Według The Information Anthropic rozważa zainwestowanie ponad miliarda dolarów w tego typu środowiska w przyszłym roku.

Inwestorzy i założyciele firm liczą na to, że jeden z tych startupów stanie się „Scale AI dla środowisk”, nawiązując do potęgi w dziedzinie etykietowania danych, która napędzała rozwój chatbotów. Pytanie brzmi, czy środowiska RL naprawdę przesuną granice możliwości AI.

Środowiska RL to w gruncie rzeczy tereny treningowe symulujące pracę agenta AI w prawdziwej aplikacji. Jeden z założycieli startupu opisał ich tworzenie jako „projektowanie bardzo nudnej gry wideo”. Na przykład, środowisko może symulować przeglądarkę Chrome i zlecić agentowi AI zakup skarpetek na Amazonie. Agent jest oceniany za swoje wyniki i otrzymuje nagrodę za sukces (w tym przypadku – udany zakup skarpetek).

Chociaż zadanie to wydaje się proste, agent AI może napotkać wiele przeszkód. Może się zgubić w menu rozwijanych na stronie, albo kupić za dużo skarpetek. Twórcy nie mogą przewidzieć wszystkich błędów, jakie popełni agent. Środowisko musi być na tyle elastyczne, aby wychwycić każde nieoczekiwane zachowanie i dostarczyć użyteczne informacje. Dlatego też budowanie środowisk jest o wiele bardziej skomplikowane niż tworzenie statycznych zbiorów danych.

Niektóre środowiska są bardzo zaawansowane i pozwalają agentom AI korzystać z narzędzi, internetu i różnych aplikacji, aby wykonać zadanie. Inne są bardziej wąskie i pomagają agentowi nauczyć się konkretnych zadań w oprogramowaniu korporacyjnym.

Choć środowiska RL są teraz na topie w Dolinie Krzemowej, technika ta ma swoją historię. Jednym z pierwszych projektów OpenAI w 2016 roku było stworzenie „RL Gyms”, które przypominały obecne środowiska. W tym samym roku Google DeepMind wytrenował AlphaGo – system AI, który pokonał mistrza świata w grze Go – wykorzystując techniki RL w symulowanym środowisku.

Obecnie naukowcy próbują budować agentów AI, którzy potrafią obsługiwać komputery za pomocą dużych modeli językowych. W przeciwieństwie do AlphaGo, który był wyspecjalizowanym systemem AI działającym w zamkniętym środowisku, dzisiejsi agenci AI są szkoleni w celu uzyskania bardziej ogólnych umiejętności. Naukowcy mają lepszy punkt wyjścia, ale też bardziej skomplikowany cel, gdzie wiele rzeczy może pójść nie tak.

Firmy zajmujące się etykietowaniem danych, takie jak Scale AI, Surge i Mercor, próbują wykorzystać tę szansę i budują środowiska RL. Mają one większe zasoby niż wiele startupów w tej dziedzinie, a także bliskie relacje z laboratoriami AI.

Edwin Chen, CEO Surge, zauważył ostatnio „znaczny wzrost” zapotrzebowania na środowiska RL w laboratoriach AI. Surge, który w zeszłym roku wygenerował podobno 1,2 miliarda dolarów przychodów ze współpracy z laboratoriami AI, takimi jak OpenAI, Google, Anthropic i Meta, powołał nową wewnętrzną organizację, której zadaniem jest budowanie środowisk RL.

Mercor, startup wyceniany na 10 miliardów dolarów, również współpracuje z OpenAI, Metą i Anthropic. Firma przekonuje inwestorów, że budowanie środowisk RL dla konkretnych zadań, takich jak kodowanie, opieka zdrowotna i prawo, to ogromna szansa.

Według CEO Mercor, Brendana Foody’ego, „niewielu rozumie, jak duża jest naprawdę szansa związana ze środowiskami RL”.

Scale AI dominował w dziedzinie etykietowania danych, ale stracił pozycję, gdy Meta zainwestowała 14 miliardów dolarów i zatrudniła jego CEO. Od tego czasu Google i OpenAI przestały korzystać z usług Scale AI jako dostawcy danych, a startup musi konkurować z Metą w zakresie etykietowania danych. Mimo to Scale próbuje budować środowiska RL.

„Taka jest natura działalności, w której Scale AI się znajduje”, mówi Chetan Rane, szef produktu ds. agentów i środowisk RL w Scale AI. „Scale udowodnił, że potrafi szybko się dostosowywać. Robiliśmy to na początku rozwoju pojazdów autonomicznych, naszej pierwszej jednostki biznesowej. Kiedy pojawił się ChatGPT, Scale AI dostosował się do tego. A teraz po raz kolejny dostosowujemy się do nowych dziedzin, takich jak agenci i środowiska”.

Niektóre nowe firmy od początku koncentrują się wyłącznie na środowiskach. Jedną z nich jest Mechanize Work, startup założony około sześć miesięcy temu z ambitnym celem „zautomatyzowania wszystkich miejsc pracy”. Współzałożyciel Matthew Barnett mówi jednak, że firma zaczyna od środowisk RL dla agentów AI piszących kod.

Mechanize Work chce dostarczyć laboratoriom AI niewielką liczbę solidnych środowisk RL, zamiast tworzyć szeroką gamę prostych środowisk. Firma oferuje inżynierom oprogramowania pensje w wysokości 500 000 dolarów za budowanie środowisk RL – znacznie więcej niż mogą zarobić kontraktorzy w Scale AI lub Surge.

Źródła podają, że Mechanize Work współpracuje już z Anthropic nad środowiskami RL. Firmy nie skomentowały tych doniesień.

Inne startupy, takie jak Prime Intellect, liczą na to, że środowiska RL będą miały wpływ poza laboratoriami AI. Firma, wspierana przez badacza AI Andreja Karpathy’ego, Founders Fund i Menlo Ventures, kieruje swoją ofertę do mniejszych deweloperów.

Prime Intellect uruchomił hub środowisk RL, który ma być „Hugging Face dla środowisk RL”. Chodzi o to, aby dać deweloperom open-source dostęp do tych samych zasobów, które mają duże laboratoria AI, i sprzedawać im dostęp do zasobów obliczeniowych.

Szkolenie agentów w środowiskach RL może być droższe obliczeniowo niż dotychczasowe metody treningu AI, zdaniem Willa Browna z Prime Intellect. Oprócz startupów budujących środowiska RL, istnieje również szansa dla dostawców GPU, które mogą zasilać ten proces.

„Środowiska RL będą zbyt duże, aby jedna firma mogła je zdominować”, powiedział Brown. „Staramy się budować dobrą infrastrukturę open-source. Sprzedajemy moc obliczeniową, co ułatwia korzystanie z GPU, ale myślimy o tym w dłuższej perspektywie”.

Pytanie otwarte brzmi, czy technika ta będzie skalowalna tak jak poprzednie metody treningu AI.

Uczenie przez wzmacnianie napędzało największe postępy w AI w ciągu ostatniego roku, w tym modele takie jak o1 od OpenAI i Claude Opus 4 od Anthropic. Dotychczasowe metody poprawiania modeli AI wykazują coraz mniejszą skuteczność.

Środowiska RL to część szerszej strategii laboratoriów AI, które wierzą, że RL będzie nadal napędzać postęp, dodając więcej danych i zasobów obliczeniowych do procesu. Niektórzy badacze z OpenAI stojący za o1 powiedzieli wcześniej, że firma zainwestowała w modele rozumowania AI – stworzone dzięki inwestycjom w RL – ponieważ uważała, że będą się dobrze skalować.

Nie wiadomo, jak najlepiej skalować RL, ale środowiska wydają się obiecujące. Zamiast nagradzać chatboty za odpowiedzi tekstowe, pozwalają one agentom działać w symulacjach z narzędziami i komputerami. Jest to bardziej zasobochłonne, ale potencjalnie bardziej opłacalne.

Niektórzy sceptycznie podchodzą do rozwoju środowisk RL. Ross Taylor, były szef badań AI w Meta i współzałożyciel General Reasoning, uważa, że środowiska RL są podatne na „oszukiwanie” w celu uzyskania nagrody, bez faktycznego wykonywania zadania.

„Ludzie nie doceniają, jak trudno jest skalować środowiska”, powiedział Taylor. „Nawet najlepsze publicznie dostępne środowiska RL zazwyczaj nie działają bez poważnych modyfikacji”.

Sherwin Wu, szef inżynierii w OpenAI, stwierdził niedawno, że jest „krótki” na startupach zajmujących się środowiskami RL. Zauważył, że jest to bardzo konkurencyjna dziedzina, a badania nad AI rozwijają się tak szybko, że trudno jest dobrze służyć laboratoriom AI.

Karpathy, inwestor w Prime Intellect, który nazwał środowiska RL potencjalnym przełomem, również wyraził ostrożność co do przestrzeni RL. W poście na X wyraził obawy, ile jeszcze postępu w AI można wycisnąć z RL.

Udostępnij:

Zobacz również

Grafowy Agent AI z Gemini: Nowy wymiar planowania zadań i samokrytyki

MCP-Bench: Nowy test sprawdzający, jak AI radzi sobie z realnymi problemami

Mbodi redefiniuje szkolenie robotów: Agenci AI kluczem do adaptacji w złożonych środowiskach

Dodaj komentarz Anuluj pisanie odpowiedzi