Neonowe, futurystyczne miasto. Abstrakcyjna postać AI kontroluje wirtualne ekrany z kodem, grafikami i aplikacjami.

ComputerRL: Nowy framework Zhipu AI uczy agentów AI obsługi komputerów

2025-08-24 AI Sight

W świecie automatyzacji opartej na sztucznej inteligencji, chińskie Zhipu AI zaprezentowało ComputerRL, framework, który ma umożliwić agentom sprawniejsze poruszanie się w cyfrowym środowisku pracy. Rozwiązanie ma mostować lukę między możliwościami agentów AI a interfejsami graficznymi, które zostały zaprojektowane z myślą o człowieku.

Hybrydowe podejście API-GUI

ComputerRL wprowadza paradygmat API-GUI, który łączy precyzję wywołań API z elastycznością operacji opartych na GUI. Agenci mogą korzystać z API w zadaniach, które na tym zyskują, a GUI traktować jako opcję rezerwową. Użytkownik dostarcza przykładowe zadania, a system analizuje wymagania, wdraża API przy użyciu bibliotek Pythona i generuje przypadki testowe. Zapewnia to hermetyzację funkcji ogólnego przeznaczenia, redukując złożoność i zwiększając wydajność agenta. Zintegrowane są API dla aplikacji Ubuntu, takich jak GIMP i LibreOffice, co umożliwia przetwarzanie obrazów lub formatowanie dokumentów w mniejszej liczbie kroków niż w przypadku metod GUI.

Skalowalna infrastruktura uczenia ze wzmocnieniem

Szkolenie agentów desktopowych jest utrudnione przez wydajność środowisk wirtualnych. ComputerRL radzi sobie z tym dzięki infrastrukturze uczenia ze wzmocnieniem (RL) zbudowanej na Dockerze i gRPC, obsługującej tysiące równoległych maszyn wirtualnych Ubuntu. Konfiguracja jest kompatybilna z benchmarkami, takimi jak AgentBench i rozwiązuje problemy wcześniejszych systemów, takie jak zasobożerność i wąskie gardła sieci.

Kluczowe funkcje obejmują wdrażanie VM za pośrednictwem qemu-in-docker, klastrowanie wielowęzłowe i interfejs do monitorowania. W połączeniu z platformą AgentRL umożliwia to asynchroniczne szkolenie, oddzielenie gromadzenia danych od aktualizacji parametrów w celu zwiększenia wydajności. Ta infrastruktura pozwala na wysokoprzepustowe RL, dynamiczne dopasowywanie rozmiaru partii i łagodzenie odchyleń od zasad, ułatwiając długotrwałe szkolenia.

Entropulse: zwiększanie eksploracji w uczeniu ze wzmocnieniem

Aby zapobiec załamaniu entropii (utraty zachowań eksploracyjnych podczas uczenia ze wzmocnieniem), ComputerRL wykorzystuje Entropulse. Metoda przeplata fazy RL z nadzorowanym dostrajaniem (SFT) w oparciu o trajektorie udanych akcji, przywracając entropię i umożliwiając dalszy wzrost wydajności. Potem następuje optymalizacja zasad (GRPO) z nagrodami opartymi na regułach, przyznając pozytywne wyniki tylko poprawnym, przyczyniającym się działaniom w udanych trajektoriach. Entropulse pozyskuje dane z wcześniejszych akcji do SFT, zapobiegając przedwczesnej konwergencji.

Eksperymentalna walidacja na platformie OSWorld

Zespół badawczy zastosował ComputerRL do modeli open-source, takich jak GLM-4-9B-0414 i Qwen2.5-14B, uzyskując warianty AutoGLM-OS. W teście OSWorld, AutoGLM-OS-9B osiągnął wskaźnik sukcesu 48,1%, wyprzedzając modele takie jak CUA o3 OpenAI (42,9%) i Clause 4.0 (30,7%).

Analiza wykazała, że paradygmat API-GUI poprawił wskaźniki sukcesu o 134% w porównaniu z GUI. Szkolenia BC zapewniły bazową wartość 31,9%, a fazy RL dodały do 45,8% dzięki eksploracji z wykorzystaniem Entropulse. Krzywe entropii potwierdziły rolę Entropulse w utrzymaniu dynamiki uczenia się.

Studium przypadku pokazuje tworzenie tabeli zbiorczej sprzedaży w LibreOffice Calc lub generowania raportów systemowych za pomocą poleceń terminala. Analiza błędów ujawniła problemy, takie jak percepcja wizualna (25,8% błędów) i koordynacja wielu aplikacji (34,4%), wskazując obszary wymagające udoskonalenia.

Przyszłość

ComputerRL tworzy podwaliny pod agentów zdolnych do obsługi dynamicznych środowisk. Potencjalne ulepszenia obejmują rozszerzenie różnorodności szkoleń, integrację percepcji multimodalnej i rozwój planowania. Funkcje bezpieczeństwa, takie jak walidacja działań będą miały kluczowe znaczenie dla wdrożenia.

ComputerRL stanowi krok naprzód w rozwoju agentów AI, łącząc skalowalne RL z interakcjami, aby przekształcić inteligencję desktopową. Wraz z rozwojem modeli, takich jak AutoGLM-OS, framework toruje drogę agentom ogólnego przeznaczenia w codziennej pracy z komputerem.

Udostępnij:

Zobacz również

Graph-R1: Przełom w walce z fabulacją modeli językowych dzięki hypergrafom i uczeniu ze wzmocnieniem

ChatGPT Agent: Nowy krok ku autonomii AI

Nvidia stawia na bezpieczeństwo agentów AI: Nowy stos technologiczny ma przełamać opory korporacji

Dodaj komentarz Anuluj pisanie odpowiedzi