NaukaR & D

Sztuczna inteligencja rzuca nowe światło na działanie ludzkiego mózgu. Model DINOv3 jako klucz do zrozumienia percepcji wzrokowej

Od dekady rozwój głębokiego uczenia maszynowego rewolucjonizuje dziedzinę Computer Vision, produkując sieci neuronowe, które dorównują, a nawet przewyższają ludzką dokładność w zadaniach rozpoznawania obrazów. Co więcej, sposób, w jaki te sieci przetwarzają informacje, wykazuje uderzające podobieństwa do procesów zachodzących w ludzkim mózgu. Ta niespodziewana zbieżność rodzi intrygujące pytanie: czy badanie modeli AI może pomóc nam lepiej zrozumieć, jak mózg uczy się widzieć?

Naukowcy z Meta AI oraz École Normale Supérieure podjęli się próby odpowiedzi na to pytanie, koncentrując się na modelu DINOv3 – transformatorze wizyjnym, który został wytrenowany w procesie samonadzoru na miliardach naturalnych obrazów. Porównali oni wewnętrzne aktywacje DINOv3 z odpowiedziami mózgu ludzkiego na te same obrazy, wykorzystując dwie komplementarne techniki neuroobrazowania: funkcjonalny rezonans magnetyczny (fMRI) oraz magnetoencefalografię (MEG). fMRI dostarczyło wysokiej rozdzielczości map przestrzennych aktywności kory mózgowej, natomiast MEG umożliwiło precyzyjny pomiar czasowy reakcji mózgu. Połączenie tych danych pozwoliło na uzyskanie bogatego obrazu przetwarzania informacji wzrokowych w mózgu.

Zbieżność mózgu i modelu

Zespół badawczy odkrył wyraźne dowody na zbieżność między działaniem modelu DINOv3 a reakcjami mózgu. Aktywacje modelu skutecznie przewidywały sygnały fMRI zarówno we wczesnych obszarach wzrokowych, jak i w korze asocjacyjnej wyższego rzędu. Korelacje sygnałów osiągnęły wartość R = 0.45, a wyniki MEG pokazały, że zbieżność ta rozpoczynała się już 70 milisekund po pojawieniu się obrazu i trwała do trzech sekund. Co istotne, wczesne warstwy DINOv3 odpowiadały aktywności obszarów takich jak V1 i V2, podczas gdy głębsze warstwy korelowały z aktywnością obszarów wyższego rzędu, w tym części kory przedczołowej.

Trajektorie uczenia się

Analiza zmian w podobieństwie między modelem a mózgiem w trakcie uczenia się ujawniła interesującą trajektorię. Zbieżność w obszarach wzrokowych niskiego poziomu pojawiała się bardzo wcześnie, już po niewielkiej części treningu, podczas gdy zbieżność w obszarach wyższego poziomu wymagała przetworzenia miliardów obrazów. To odzwierciedla sposób rozwoju ludzkiego mózgu, w którym obszary sensoryczne dojrzewają wcześniej niż kora asocjacyjna.

Rola czynników modelu

Rozmiar modelu, ilość danych treningowych oraz rodzaj obrazów użytych do treningu miały istotny wpływ na stopień podobieństwa do reakcji mózgu. Większe modele konsekwentnie osiągały wyższe wyniki podobieństwa, zwłaszcza w korze asocjacyjnej. Dłuższy trening poprawiał zbieżność we wszystkich obszarach, przy czym reprezentacje wysokiego poziomu najbardziej korzystały z dłuższego czasu ekspozycji na dane. Rodzaj obrazów również miał znaczenie: modele trenowane na obrazach skoncentrowanych na ludziach wykazywały najsilniejszą zbieżność, zaś te trenowane na obrazach satelitarnych lub komórkowych wykazywały jedynie częściową zbieżność we wczesnych obszarach wzrokowych.

Implikacje dla neurobiologii

Wyniki badania sugerują, że modele AI mogą dostarczyć cennych wskazówek na temat biologicznych zasad organizacji kory mózgowej. Czas pojawiania się reprezentacji w DINOv3 korelował się z właściwościami kory mózgowej, takimi jak stopień ekspansji rozwojowej, grubość kory oraz tempo przetwarzania informacji. Obszary o większej ekspansji rozwojowej i wolniejszym tempie przetwarzania informacji zbiegały się z modelem później w trakcie treningu.

Wnioski

Badanie to dowodzi, że samonadzorowane modele wizyjne, takie jak DINOv3, stanowią obiecujące narzędzie do badania mechanizmów percepcji wzrokowej w ludzkim mózgu. Analiza sposobu, w jaki te modele uczą się „widzieć”, może przyczynić się do lepszego zrozumienia rozwoju i funkcjonowania ludzkiego mózgu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *