Nowy algorytm NYU naśladuje ludzkie widzenie, by udoskonalić systemy wizyjne AI
Współczesne systemy AI doskonale radzą sobie z identyfikacją prostych obiektów na obrazach, takich jak budynki, samochody czy ludzie. Jednak ich efektywność drastycznie spada w bardziej skomplikowanym terenie. Wyzwaniem staje się poprawne rozpoznawanie wielu elementów jednocześnie, w dynamicznym otoczeniu, takim jak ruchliwe skrzyżowanie.
„Czy możemy opracować algorytm uczenia się, który będzie w stanie bezpośrednio przetwarzać dane z otoczenia – tak, jak my to robimy – zamiast jedynie rozpoznawać proste obrazy na ekranie komputera?” – pyta Mengye Ren, profesor NYU’s Courant Institute of Mathematical Sciences i Center for Data Science.
Odpowiedzią ma być algorytm PooDLe, inspirowany sposobem, w jaki ludzie i zwierzęta analizują złożone sceny. Wykorzystuje on tzw. przepływ optyczny – informacje o tym, jak piksele przemieszczają się między klatkami wideo – do uchwycenia zarówno pierwszoplanowych (np. piesi przechodzący przez ulicę), jak i dalszych planów (odległe skrzyżowania).
W efekcie, system potrafi identyfikować te same obiekty w czasie, nawet jeśli zmieniają one swoje położenie i otoczenie. Przykładem może być pieszy, który przechodzi od krawężnika do przejścia dla pieszych i kontynuuje marsz w tłumie.
„PooDLe łączy w sobie najlepsze cechy istniejących narzędzi wizyjnych AI, rozpoznając zarówno duże, jak i małe obiekty” – wyjaśnia Mengye Ren. Celem zespołu jest dalsze udoskonalanie tego narzędzia, aby mogło ono rozpoznawać różnorodne obiekty w scenie: samochody, drogi, światła drogowe, rowerzystów i inne.
Potencjalne zastosowania tego rozwiązania są ogromne – od autonomicznych pojazdów po systemy monitoringu i robotykę. Sukces projektu NYU może przybliżyć nas do stworzenia systemów AI, które widzą i rozumieją świat w sposób bardziej zbliżony do ludzkiego.
