Cyfrowa symfonia połączonych węzłów, centralny mózg z kodu, ilustracja automatyzacji współpracy w CoAct-1.

CoAct-1: Przełom w automatyzacji komputerów dzięki podejściu hybrydowemu

2025-08-09 AI Sight

Dotychczasowe podejścia w autonomizacji pracy z komputerem, zwłaszcza te opierające się wyłącznie na interakcjach z GUI, napotykały na znaczące ograniczenia. Agenci CUA imitujący działania człowieka – klikanie, pisanie czy nawigowanie po interfejsach – często okazywały się nieefektywne i podatne na błędy, szczególnie w przypadku rozbudowanych, wieloetapowych zadań. Jedno niefortunne kliknięcie mogło zniweczyć cały proces, a ich złożoność rosła drastycznie wraz z długością sekwencji działań. Mimo prób poprawy poprzez dodanie wysokopoziomowych mechanizmów planowania, takich jak w systemach GTA-1 czy modułowych frameworkach, wąskie gardło ograniczone do przestrzeni działań GUI pozostawało nierozwiązane.

Przewaga hybrydowego podejścia

CoAct-1 odchodzi od tych ograniczeń, wprowadzając hybrydową architekturę, która łączy trzy wyspecjalizowane agenty współpracujące synergicznie:

Orkiestrator: Jako główny planer, odpowiada za dekompozycję złożonych zadań na mniejsze podzadania i dynamiczne delegowanie ich do Programisty lub Operatora GUI, zależnie od wymagań.
Programista: Wykonuje operacje backendowe, takie jak zarządzanie plikami, przetwarzanie danych czy konfiguracja środowiska, bezpośrednio za pomocą skryptów Python lub Bash. To pozwala ominąć uciążliwe i, co ważniejsze, zawodne sekwencje działań GUI.
Operator GUI: Wykorzystuje model wizualno-językowy do interakcji z interfejsami graficznymi, gdy nawigacja za pomocą interfejsu użytkownika jest nieodzowna.

To innowacyjne podejście umożliwia CoAct-1 strategiczne zastępowanie podatnych na błędy i czasochłonnych operacji myszy i klawiatury zwięzłym, niezawodnym kodem, jednocześnie wykorzystując interakcje GUI tam, gdzie są one faktycznie niezbędne.

Rekordowe wyniki w benchmarku OSWorld

W niezależnym teście OSWorld, który obejmuje 369 zadań z zakresu produktywności biurowej, środowisk IDE, przeglądarek, menedżerów plików i złożonych przepływów pracy obejmujących wiele aplikacji, CoAct-1 zademonstrował swoją wyższość. System ten ustanowił nowy standard, osiągając niespotykany dotąd wskaźnik sukcesu na poziomie 60.76% w kategorii zadań wymagających ponad 100 kroków. Jest to pierwszy agent CUA, który przekroczył próg 60%, znacznie wyprzedzając konkurencję, w tym GTA-1 (53.10%) czy OpenAI CUA 4o (31.40%).

Warto zauważyć, że CoAct-1 nie tylko osiąga lepsze wyniki, ale także robi to efektywniej. Średnia liczba kroków potrzebnych do wykonania zadania wynosi 10.15 dla CoAct-1, w porównaniu do 15.22 dla GTA-1. Mimo że OpenAI CUA 4o potrafi wykonać zadania w mniejszej liczbie kroków (6.14), jego wskaźnik sukcesu jest trzykrotnie niższy, co podkreśla kluczową korelację między efektywnością, a niezawodnością.

Kluczowe czynniki sukcesu

Analiza wyników CoAct-1 wskazuje na kilka fundamentalnych przyczyn jego przewagi:

Zastąpienie zbędnych sekwencji GUI kodem: Dla zadań takich jak hurtowa zmiana rozmiaru obrazów czy zaawansowane operacje na plikach, pojedyncze skrypty zastępują dziesiątki podatnych na błędy kliknięć.
Dynamiczne delegowanie zadań: Elastyczność Orkiestratora w przypisywaniu zadań zapewnia optymalne wykorzystanie zarówno kodowania, jak i działań GUI.
Zastosowanie potężnych modeli bazowych: Najlepsze wyniki osiągnięto, wykorzystując OpenAI CUA 4o dla Operatora GUI, OpenAI o3 dla Orkiestratora i o4-mini dla Programisty. Systemy oparte na mniej zaawansowanych modelach osiągały znacznie słabsze rezultaty.
Korelacja efektywności z niezawodnością: Mniejsza liczba kroków to mniej okazji do błędów, co jest najsilniejszym predyktorem sukcesu.

Perspektywy na przyszłość

Prezentacja CoAct-1 to znaczący krok naprzód w dziedzinie uogólnionej automatyzacji komputerów. Uczynienie kodowania działaniem systemowym pierwszej kategorii, obok manipulacji GUI, otwiera drogę do skalowalnych i niezawodnych autonomicznych agentów komputerowych. Hybrydowa architektura i dynamiczna logika wykonania CoAct-1 wyznaczają nowy, wysoki standard dla przyszłych badań i zastosowań w automatyzacji procesów cyfrowych.

Przewaga hybrydowego podejścia

Rekordowe wyniki w benchmarku OSWorld

Kluczowe czynniki sukcesu

Perspektywy na przyszłość

Udostępnij:

Zobacz również

Asepha AI pozyskuje miliony na automatyzację aptek w USA. Czy agenci sztucznej inteligencji odciążą farmaceutów?

ServiceNow Research udostępnia DRBench — benchmark dla „głębokich badań” w środowisku korporacyjnym

North firmy Cohere: przełom w bezpieczeństwie danych korporacyjnych dzięki lokalnemu AI

Dodaj komentarz Anuluj pisanie odpowiedzi