ObrazR & D

Dlaczego ludzie widzą fragmenty, a AI wciąż się gubi

W codziennym życiu, mimochodem, rozpoznajemy twarze w tłumie czy sylwetki obiektów, nawet jeśli są częściowo zasłonięte. Nasz mózg bez wysiłku składa wizualne fragmenty w spójną całość, wypełniając luki w chaosie otaczającego świata. Ta niezwykła zdolność, nazywana „integracją konturów”, pozostaje wyzwaniem dla nawet najbardziej zaawansowanych systemów sztucznej inteligencji.

Mimo imponujących osiągnięć AI w dziedzinie rozpoznawania obrazów, sztuczna inteligencja wciąż ma trudności z generalizacją na podstawie niekompletnych lub fragmentarycznych informacji wizualnych. Gdy obiekty są częściowo ukryte, zamazane lub podzielone na fragmenty, większość modeli AI zawodzi, błędnie klasyfikuje lub po prostu rezygnuje. Jest to poważny problem w kontekście rosnącej zależności od AI w zastosowaniach takich jak autonomiczne samochody, protetyka czy robotyka, gdzie niezawodność jest kluczowa.

Ludzie kontra algorytmy: Test integracji konturów

Zespół NeuroAI Lab z EPFL, pod kierownictwem Martina Schrimpfa, postawił sobie za cel systematyczne porównanie sposobów, w jaki ludzie i AI radzą sobie z wizualnymi zagadkami. Ben Lönnqvist, główny autor badania i doktorant EDNE, we współpracy z Laboratorium Psychofizyki Michaela Herzoga, opracował serię testów rozpoznawania. W badaniu wzięło udział pięćdziesięciu ochotników oraz ponad tysiąc sztucznych sieci neuronowych, które miały za zadanie zidentyfikować obiekty z brakującymi lub fragmentarycznymi konturami. Wyniki, zaprezentowane na International Conference on Machine Learning (ICML 2025) w Vancouver, a także dostępne na serwerze preprintów arXiv, jednoznacznie wskazują na przewagę człowieka.

Uczestnicy badania oglądali obrazy codziennych przedmiotów, takich jak filiżanki, kapelusze czy patelnie, których kontury były systematycznie usuwane lub dzielone na segmenty. W niektórych przypadkach widoczne pozostawało zaledwie 35% obrysu obiektu. Równolegle, to samo zadanie wykonano na ponad tysiącu modeli AI, w tym na kilku z najpotężniejszych dostępnych systemów. Eksperyment obejmował dwadzieścia różnych warunków, różniących się typem i ilością informacji wizualnych. Badacze porównywali wyniki w tych warunkach, mierząc dokładność i analizując reakcje zarówno ludzi, jak i maszyn na coraz trudniejsze wizualne wyzwania.

Odporność ludzkiego wzroku i ograniczenia AI

Ludzie okazali się niezwykle odporni, często osiągając 50% dokładności, nawet gdy brakowało większości obrysu obiektu. Modele AI, w przeciwieństwie do nich, w podobnych okolicznościach miały tendencję do losowego zgadywania. Jedynie modele trenowane na miliardach obrazów zbliżyły się do ludzkiej wydajności – i nawet wtedy musiały być specjalnie przystosowane do obrazów używanych w badaniu.

Zagłębiając się w wyniki, badacze odkryli, że ludzie wykazują naturalną preferencję w rozpoznawaniu obiektów, gdy rozproszone części wskazują w tym samym kierunku, co zespół nazwał „tendencją do integracji”. Modele AI, które zostały wytrenowane w celu wykształcenia podobnej tendencji, osiągały lepsze wyniki w przypadku zniekształceń obrazu. Trening systemów AI specjalnie zaprojektowanych do integracji konturów zwiększył ich dokładność, a także sprawił, że bardziej skupiały się na kształcie obiektu zamiast na teksturze powierzchni.

Konsekwencje dla przyszłości AI

Wyniki tych badań sugerują, że integracja konturów nie jest wrodzoną cechą, lecz może być nabyta w drodze doświadczenia. Dla branż opartych na wizji komputerowej, takich jak autonomiczne samochody czy obrazowanie medyczne, zbudowanie AI, która widzi świat bardziej podobnie do nas, mogłoby oznaczać bezpieczniejszą i bardziej niezawodną technologię.

Co więcej, praca ta pokazuje, że najlepszym sposobem na zmniejszenie luki między ludzkim a maszynowym rozpoznawaniem nie jest modyfikowanie architektury AI, lecz dostarczanie maszynom bardziej „ludzkiej” diety wizualnej, obejmującej liczne obrazy z życia wzięte, gdzie obiekty często są częściowo ukryte. Ten wniosek stanowi kluczowy kierunek dla przyszłych badań i rozwoju sztucznej inteligencji, która mogłaby lepiej adaptować się do złożoności i niedoskonałości świata rzeczywistego.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *