Roboczy ramię precyzyjnie manipuluje kolorowymi danymi na tle futurystycznego miasta, ilustrując Genie Envisioner.

Genie Envisioner: Nowa era robotyki z platformą wizyjną sterowaną instrukcjami

2025-08-12 AI Sight

Robotyka manipulacyjna od lat stanowi jedno z kluczowych wyzwań w dziedzinie sztucznej inteligencji. Tworzenie inteligentnych agentów, zdolnych do percepcyjnego rozpoznawania świata, myślenia i działania w nim, to cel, który wciąż pozostaje poza pełnym zasięgiem. Dotychczasowe rozwiązania cierpiały na segmentację procesów – gromadzenie danych, trening i ewaluacja często odbywały się w oderwaniu od siebie, wymagając niestandardowych konfiguracji, ręcznego doboru danych i specyficznych dla zadań modyfikacji. Takie podejście nie tylko spowalniało postęp, ale także utrudniało identyfikację błędów i replikowalność wyników. Dopiero ujednolicona struktura może usprawnić zarówno proces uczenia, jak i oceny.

Przez lata badania nad manipulacją robotyczną ewoluowały od modeli analitycznych po neuronowe modele świata, które uczyły się dynamiki bezpośrednio z danych sensorycznych, operując zarówno w przestrzeniach pikselowych, jak i latentnych. Modele generowania wideo na dużą skalę, choć zdolne do tworzenia realistycznych wizualizacji, często pomijały kluczowe aspekty, takie jak warunkowanie działania, spójność czasową na dłuższą metę czy rozumowanie wielowidokowe niezbędne do precyzyjnej kontroli. Modele wizyjno-językowo-działaniowe, choć podążają za instrukcjami, są ograniczone przez uczenie oparte na imitacji, co utrudnia odzyskiwanie po błędach i planowanie. Ocena polityki pozostaje wyzwaniem; symulatory fizyczne wymagają intensywnego dostrajania, a testy w świecie rzeczywistym są zasobożerne. Istniejące metryki ewaluacyjne często kładły nacisk na jakość wizualną, a nie na faktyczne powodzenie zadania, co wskazywało na potrzebę nowych benchmarków, lepiej odzwierciedlających rzeczywiste wyniki manipulacji. Właśnie w tym kontekście pojawia się nowa propozycja.

Genie Envisioner: Nowe podejście

Zespoły badawcze z AgiBot Genie Team, NUS LV-Lab i BUAA wspólnie opracowały Genie Envisioner (GE) – zunifikowaną platformę do manipulacji robotycznej. System ten integruje uczenie polityk, symulację i ewaluację w ramach generatywnej struktury wideo. Sercem platformy jest GE-Base, obszerny model dyfuzyjny wideo, który jest sterowany instrukcjami i zdolny do uchwycenia dynamicznych aspektów przestrzennych, czasowych i semantycznych zadań wykonywanych w świecie rzeczywistym.

GE-Act stanowi rozszerzenie tej koncepcji, przekształcając te reprezentacje w precyzyjne trajektorie działania. Z kolei GE-Sim oferuje szybką, warunkowaną działaniem symulację opartą na wideo. Ponadto, system wprowadzono zestaw testów porównawczych EWMBench, mający na celu ocenę realizmu wizualnego, precyzji fizycznej oraz zgodności między instrukcjami a faktycznymi działaniami. Platforma, przeszkolona na ponad milionie epizodów, wykazuje zdolność do generalizacji w różnych typach robotów i zadań, tym samym umożliwiając skalowalne i fizycznie ugruntowane badania nad ucieleśnioną inteligencją.

Architektura i wydajność

Architektura Genie Envisioner opiera się na trzech kluczowych filarach. GE-Base to model dyfuzyjny wideo, który jest uwarunkowany instrukcjami i przeszkolony na ponad milionie epizodów manipulacji robotycznej. Uczy się on latentnych trajektorii, które opisują, jak sceny ewoluują w odpowiedzi na dane komendy. Bazując na tej podstawie, GE-Act przekształca te latentne reprezentacje wideo w rzeczywiste sygnały sterujące za pośrednictwem lekkiego dekodera dopasowującego przepływ, co umożliwia szybką i precyzyjną kontrolę silników, nawet w przypadku robotów niewłączonych do danych treningowych. GE-Sim natomiast wykorzystuje generatywną moc GE-Base do stworzenia neuronowego symulatora warunkowanego działaniem. Umożliwia to zamknięto-pętlową symulację wideo z prędkością znacznie przewyższającą realne możliwości sprzętowe. Pakiet EWMBench kompleksowo ocenia system pod względem realizmu wideo, spójności fizycznej oraz zgodności między instrukcjami a wynikowymi działaniami.

Evaluacje wykazały wysoką efektywność Genie Envisioner zarówno w świecie rzeczywistym, jak i w symulacji, w szerokim zakresie zadań manipulacji robotycznej. GE-Act osiągnął błyskawiczne generowanie kontroli (trajektorie 54-krokowe w 200 ms) i konsekwentnie przewyższał konkurencyjne modele wizyjno-językowo-działaniowe pod względem sukcesu krokowego i końcowego. System wykazał zdolność adaptacji do nowych typów robotów, takich jak Agilex Cobot Magic i Dual Franka, wymagając zaledwie godziny danych specyficznych dla zadania, co pozwoliło mu osiągnąć doskonałe wyniki w złożonych zadaniach z obiektami odkształcalnymi. GE-Sim natomiast dostarczał wysokiej wierności symulacje wideo warunkowane działaniem, umożliwiając skalowalne, zamknięto-pętlowe testowanie polityk. Benchmark EWMBench potwierdził przewagę GE-Base w zakresie spójności czasowej, ruchu i stabilności sceny w porównaniu do innych zaawansowanych modeli wideo, co było zbieżne z ocenami ludzkimi.

Podsumowując, Genie Envisioner stanowi zintegrowaną, skalowalną platformę do dwuramiennej manipulacji robotycznej, która łączy uczenie polityk, symulację i ewaluację w spójnym środowisku generowania wideo. Opisany system stanowi solidną podstawę dla rozwoju inteligentnych systemów ucieleśnionych, sterowanych instrukcjami, znacznie przyspieszając postęp w dziedzinie robotyki.

Genie Envisioner: Nowe podejście

Architektura i wydajność

Udostępnij:

Zobacz również

SoftBank inwestuje w robotykę. Przejęcie jednostki ABB to kolejny krok w kierunku 'fizycznej AI’

ANYmal: Robot na czterech łapach gra w badmintona

Weteran Tesli dołącza do Pickle Robot jako pierwszy dyrektor finansowy w obliczu ekspansji z UPS

Dodaj komentarz Anuluj pisanie odpowiedzi