Sztuczna inteligencja uczy się rozpoznawać Twojego psa: Nowa metoda lokalizacji spersonalizowanych obiektów
Wyobraź sobie, że chcesz, aby system AI monitorował Twojego psa bawiącego się w parku. O ile rozpoznanie „psa” jako takiego nie stanowi problemu, identyfikacja konkretnego osobnika, np. Twojego buldoga francuskiego o imieniu Bowser, jest już wyzwaniem dla obecnych modeli wizyjno-językowych. Naukowcy z MIT i MIT-IBM Watson AI Lab znaleźli rozwiązanie tego problemu. Opracowali nową metodę treningową, która znacząco poprawia zdolność AI do lokalizowania spersonalizowanych obiektów.
Przełom w lokalizacji obiektów
Ich metoda opiera się na wykorzystaniu starannie przygotowanych danych wideo, w których ten sam obiekt jest śledzony w wielu klatkach. Kluczowe jest tutaj to, że model musi skupić się na wskazówkach kontekstowych, aby zidentyfikować konkretny obiekt, zamiast polegać na wcześniej zapamiętanej wiedzy. Po ponownym przeszkoleniu z wykorzystaniem tej metody, model jest w stanie lepiej zlokalizować poszukiwany obiekt na nowym obrazie, nawet jeśli widział go wcześniej tylko na kilku przykładach.
„Chcemy, aby te modele uczyły się z kontekstu, tak jak robią to ludzie”, mówi Jehanzeb Mirza, pracownik MIT i główny autor artykułu na temat tej techniki. „Jeśli model potrafi to robić dobrze, zamiast przekształcać go dla każdego nowego zadania, możemy po prostu podać kilka przykładów, a on wywnioskuje, jak wykonać zadanie z tego kontekstu. To bardzo potężna umiejętność”.
Niespodziewane ograniczenia modeli wizyjno-językowych
Badacze odkryli, że duże modele językowe (LLM) doskonale radzą sobie z uczeniem się z kontekstu. Jednak modele wizyjno-językowe (VLM), które są zasadniczo LLM z komponentem wizualnym, niekoniecznie dziedziczą tę zdolność. „Społeczność badawcza nie była w stanie znaleźć jednoznacznej odpowiedzi na ten konkretny problem. Wąskie gardło może wynikać z faktu, że pewne informacje wizualne są tracone w procesie scalania dwóch komponentów”, wyjaśnia Mirza.
Aby rozwiązać ten problem, naukowcy skupili się na danych wykorzystywanych do przekształcania istniejących VLM dla nowego zadania, w procesie zwanym fine-tuning. Typowe dane do fine-tuningu są gromadzone z losowych źródeł i przedstawiają kolekcje przedmiotów codziennego użytku. „W tych danych nie ma prawdziwej spójności, więc model nigdy nie uczy się rozpoznawać tego samego obiektu na wielu obrazach”, mówi Mirza. Aby to naprawić, badacze opracowali nowy zbiór danych, wykorzystując próbki z istniejących danych śledzenia wideo. Są to klipy wideo pokazujące ten sam obiekt poruszający się po scenie.
Wymuszanie koncentracji na kontekście
Badacze odkryli, że VLM mają tendencję do „oszukiwania”. Zamiast odpowiadać na podstawie wskazówek kontekstowych, identyfikują obiekt przy użyciu wiedzy zdobytej podczas wstępnego treningu. Aby rozwiązać ten problem, badacze użyli pseudonimów zamiast rzeczywistych nazw kategorii obiektów w zbiorze danych. Na przykład, zmienili nazwę tygrysa na „Charlie”. „Zajęło nam trochę czasu, aby wymyślić, jak uniemożliwić modelowi oszukiwanie. Ale zmieniliśmy zasady gry dla modelu. Model nie wie, że 'Charlie’ może być tygrysem, więc jest zmuszony patrzeć na kontekst”, wyjaśnia Mirza.
Przyszłość lokalizacji spersonalizowanych obiektów
Dzięki tej nowej metodzie, dokładność lokalizacji spersonalizowanych obiektów wzrosła średnio o około 12%. Co istotne, im większy model, tym większy wzrost wydajności. W przyszłości badacze chcą zbadać możliwe przyczyny, dla których VLM nie dziedziczą zdolności uczenia się w kontekście od swoich bazowych LLM. Planują również zbadać dodatkowe mechanizmy w celu poprawy wydajności VLM bez konieczności przekształcania go za pomocą nowych danych.
To odkrycie może znaleźć zastosowanie w wielu dziedzinach, takich jak śledzenie przedmiotów w czasie (np. plecaka dziecka), lokalizowanie interesujących obiektów (np. gatunku zwierzęcia w monitoringu ekologicznym) oraz w rozwoju technologii asystujących opartych na sztucznej inteligencji, które pomagają osobom z wadami wzroku w odnajdywaniu określonych przedmiotów w pomieszczeniu.
