Agenci AI

ChatGPT Agent: Nowy krok ku autonomii AI

Wraz z dynamicznym rozwojem sztucznej inteligencji, OpenAI dokonało kolejnego znaczącego kroku, wprowadzając ChatGPT Agent. Jest to rozwiązanie, które ma potencjał redefiniować sposób, w jaki postrzegamy i wykorzystujemy chatboty. Z dniem 17 lipca 2025 roku, ChatGPT przestaje być jedynie asystentem konwersacyjnym, stając się autonomicznym agentem AI, zdolnym do wykonywania złożonych, wieloetapowych zadań, począwszy od przeglądania internetu, a skończywszy na wykonywaniu kodu w wirtualnym środowisku komputerowym.

Ewolucja od Operatora i Deep Research

ChatGPT Agent nie jest tworem znikąd. Bazuje on na doświadczeniach zdobytych przy projektach Operator i Deep Research. Operator umożliwiał ograniczoną interakcję z siecią, taką jak klikanie, przewijanie czy wypełnianie formularzy. Deep Research z kolei, koncentrował się na autonomicznym przeglądaniu i syntezowaniu raportów w dłuższych ramach czasowych. Oba te narzędzia, choć innowacyjne w swoich dziedzinach, miały swoje ograniczenia. Operator mógł wchodzić w interakcję, ale brakowało mu zdolności do dogłębnej analizy. Deep Research potrafił analizować, lecz nie był w stanie dynamicznie oddziaływać ze stronami internetowymi. ChatGPT Agent stanowi fuzję tych możliwości, łącząc przeglądanie, użycie narzędzi i procesy wnioskowania w jedną, spójną architekturę agentową.

Architektura i możliwości

Sercem ChatGPT Agent jest zaawansowane, wirtualne środowisko komputerowe. Składa się ono z wizualnej przeglądarki przeznaczonej do interakcji z witrynami skierowanymi do człowieka, przeglądarki tekstowej zoptymalizowanej pod kątem strukturyzowanego wnioskowania, powłoki/terminala do wykonywania kodu oraz zintegrowanych złącz API dla usług takich jak: Gmail czy GitHub. Agent potrafi autonomicznie adaptować się do sytuacji, decydując o tym, czy kliknąć przycisk, uruchomić skrypt czy przetworzyć treść, zachowując przy tym stan między różnymi narzędziami. Wszystkie działania odbywają się w kontrolowanym kontekście agenta, co gwarantuje możliwość śledzenia i elastyczność.

Możliwości nowego agenta są szerokie i obejmują zadania takie jak:

  • Tworzenie briefingu kalendarzowego: skanowanie kalendarza, wyszukiwanie powiązanych wiadomości i podsumowywanie nadchodzących spotkań.
  • Zamawianie artykułów spożywczych: wyszukiwanie składników, porównywanie cen i składanie zamówień.
  • Analiza konkurencji: pobieranie stron konkurencji, scrapowanie danych, tworzenie prezentacji lub arkuszy kalkulacyjnych.
  • Modelowanie finansowe: pobieranie danych, aktualizowanie arkuszy, zachowywanie formatowania.

Część tych zadań wymaga multimodalnego użycia narzędzi, np. logowania się na strony, uruchamiania skryptów w terminalu, a następnie pakowania wyników w edytowalne dokumenty – oczywiście pod nadzorem użytkownika.

Wydajność i bezpieczeństwo

OpenAI w swoich raportach wskazuje na znaczące osiągnięcia ChatGPT Agent w wielu testach. W teście Humanity’s Last Exam, agent uzyskał wynik Pass@1 na poziomie 41,6%, co jest najlepszym rezultatem dla narzędzi agentowych. W teście FrontierMath, osiągnięto 27,4% dokładności dzięki wsparciu terminala i kodu, co przewyższa poprzednie modele. W SpreadsheetBench agent uzyskał wynik 45,5% w edycji plików XLSX, w porównaniu do 20% dla Copilot w Excelu i około 71% dla ludzi. W wewnętrznym teście umiejętności biurowych, narzędzia agenta dorównują lub przewyższają wydajność ekspertów w około 50% przypadków. Ponadto, w testach BrowseComp i WebArena, agent osiągnął nowe, najlepsze w swojej klasie wyniki na poziomie 68,9% w zadaniach opartych na przeglądaniu.

Wzrost autonomii wiąże się również z nowymi rodzajami ryzyka. OpenAI wdrożyło szereg zabezpieczeń, w tym:

  • Jawne potwierdzenie przed podjęciem jakiejkolwiek istotnej akcji (np. zakupy, publikowanie).
  • Tryb nadzoru (Watch Mode), gdzie niektóre wrażliwe zadania wymagają aktywnego monitorowania.
  • Solidne mechanizmy obrony przed atakami typu prompt injection, włączając w to szkolenie modelu w wykrywaniu anomalnych promptów internetowych i monitorowanie wyników narzędzi.
  • Mechanizmy prywatności, takie jak: sesyjny tryb przejęcia bez zachowywania wrażliwych danych wejściowych, np. haseł.
  • Środki dotyczące zagrożeń biologicznych: klasyfikacja jako wysokie ryzyko dla agentów biologicznych, co uruchamia zaawansowane modelowanie zagrożeń, szkolenie w zakresie odmowy, monitorowanie na żywo i systemy bug bounty.

Te warstwy zabezpieczeń mają na celu minimalizowanie ryzyka niewłaściwego użycia, od wycieków danych po przejmowanie zadań.

Dostępność i dalsze perspektywy

ChatGPT Agent jest już dostępny dla użytkowników ChatGPT Pro, którzy otrzymują 400 wiadomości w trybie agenta miesięcznie. Użytkownicy Plus i Team będą mieli stopniowy dostęp w nadchodzących dniach (40 wiadomości miesięcznie). Wersje Enterprise i Education zostaną udostępnione w ciągu kilku tygodni. Proces wdrażania poza Stanami Zjednoczonymi (do obszaru EOG i Szwajcarii) również już się rozpoczął. Użytkownik, aby skorzystać z funkcji agenta, może przełączyć się w „Tryb Agenta” za pośrednictwem menu narzędzi w dowolnej rozmowie i opisać swój oczekiwany przepływ pracy. Postępy są przedstawiane w czasie rzeczywistym, z możliwością wstrzymania, przejęcia czy zatrzymania w dowolnym momencie.

Wprowadzenie ChatGPT Agent to znacznie więcej niż drobna modyfikacja. To strategiczny zwrot w kierunku uogólnionych, autonomicznych procesów AI. Łącząc rozumowanie językowe (za pomocą modeli klasy GPT-4), orkiestrację narzędzi (przeglądarki, terminale) i środowiska wykonawcze zachowujące kontekst, OpenAI umożliwia bardziej autonomiczne, niezawodne i zorientowane na działanie przypadki użycia. Choć kontrola jest niezbędna, aby zabezpieczyć się przed niewłaściwym użyciem, to wydanie rozszerza zakres tego, co asystent AI może faktycznie zrobić, a nie tylko powiedzieć. Dla deweloperów i analityków danych, ChatGPT Agent staje się platformą: programowalnym, obserwowalnym agentem zdolnym do scrapowania, parsowania, syntezowania i eksportowania danych na żądanie. Otwiera to nowe możliwości w przepływach pracy nowej generacji w badaniach, automatyzacji biznesowej i produktywności osobistej. Możemy oczekiwać, że funkcja ta dojrzeje i stanie się fundamentalną zdolnością w wielu dziedzinach wspieranych przez AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *