Robotyka

Koniec schematów w robotyce? Physical Intelligence prezentuje model π0.7

W sektorze robotyki przez lata obowiązywał dogmat: chcesz, aby maszyna wykonała konkretną czynność, musisz dostarczyć jej tysiące przykładów dokładnie tego samego ruchu. Startup Physical Intelligence (PI) z San Francisco właśnie rzucił temu podejściu wyzwanie. Ich najnowsze badania nad modelem π0.7 wykazują zdolność do tak zwanej generalizacji kompozycyjnej. Oznacza to, że robot potrafi połączyć ze sobą strzępy informacji z różnych kontekstów, by poradzić sobie z zupełnie nowym wyzwaniem.

Przełom w kuchni, czyli przypadek frytkownicy

Najbardziej jaskrawym dowodem na nową jakość modelu był eksperyment z frytkownicą na gorące powietrze. W ogromnym zbiorze danych treningowych PI znalazły się zaledwie dwa epizody związane z tym urządzeniem: w jednym robot domykał szufladę, w drugim – pochodzącym z otwartych zasobów – inna maszyna wkładała do środka plastikową butelkę. Gdy badacze postawili przed π0.7 zadanie upieczenia batata, model samodzielnie zsyntetyzował te fragmenty wiedzy, uzupełniając je danymi z internetu, by zrozumieć zasadę działania sprzętu.

Co istotne, sukces nie przyszedł od razu. Początkowo model osiągał zaledwie 5% skuteczności. Jednak po doprecyzowaniu poleceń głosowych – procesie przypominającym instruowanie nowego pracownika – wskaźnik ten wzrósł do 95%. Lucy Shi, badaczka ze Stanfordu i członkini zespołu PI, przyznaje szczerze: czasem błąd nie leży w robocie czy modelu, lecz w człowieku, który nie potrafi precyzyjnie sformułować oczekiwań.

Koniec z nudnym nauczaniem na pamięć

Sergey Levine, współzałożyciel startupu i profesor UC Berkeley, porównuje ten moment do narodzin GPT-2. Wtedy naukowcy dziwili się, skąd model językowy wie tyle o jednorożcach w Andach; dziś dziwią się, że robot potrafi obsłużyć nieznany mu wcześniej zestaw kół zębatych tylko dlatego, że ktoś go o to poprosił. Zdaniem Levine’a przekroczyliśmy próg, za którym możliwości systemu rosną szybciej niż ilość dostarczanych danych.

Mimo entuzjazmu, zespół PI pozostaje krytyczny wobec własnych osiągnięć. π0.7 to wciąż projekt badawczy, a nie gotowy produkt. Maszyna nie przyrządzi nam śniadania po usłyszeniu jednej komendy „zrób tosty”. Wymaga prowadzenia „za rękę” poprzez kolejne etapy instrukcji: „otwórz toster, naciśnij ten przycisk”. To jednak i tak gigantyczny skok naprzód względem sztywnych systemów, które bez nowej porcji danych treningowych były bezużyteczne w nieznanym środowisku.

Wycena idzie w miliardy, wyzwania pozostają

Inwestorzy zdają się wierzyć w wizję Lachy’ego Grooma i Sergeya Levine’a. Startup, który zebrał już ponad miliard dolarów, jest obecnie wyceniany na 5,6 miliarda, a na horyzoncie widać kolejną rundę finansowania, która może tę kwotę podwoić. Sceptycy zauważają jednak istotną asymetrię między światem słowa a światem fizycznym. Modele językowe uczyły się na niemal całym zasobie ludzkiej wiedzy dostępnej w sieci. Robotom brakuje tak ogromnej bazy fizycznych interakcji.

Levine odpiera jednak zarzuty o to, że demonstracje PI są „nudne” w porównaniu do robotów wykonujących salta. Jego zdaniem prawdziwa rewolucja nie polega na widowiskowych akrobacjach w kontrolowanych warunkach, ale na nudnej, żmudnej zdolności adaptacji do codziennych zadań, których maszyna nie widziała w fazie projektowania. To właśnie ta praca u podstaw ma szansę sprawić, że roboty w końcu opuszczą sterylne hale fabryczne i trafią do naszych domów.