Vision

Dlaczego ludzie widzą więcej niż AI w niekompletnych obrazach

W codziennym życiu bez trudu rozpoznajemy znajome twarze w tłumie czy identyfikujemy obiekty, nawet jeśli są częściowo ukryte. Nasz mózg dysponuje niezwykłą zdolnością łączenia fragmentarycznych informacji wizualnych w spójną całość, wypełniając luki i nadając sens złożonemu otoczeniu. Ta kluczowa umiejętność, nazywana integracją konturową, stanowi wyzwanie nawet dla najbardziej zaawansowanych systemów sztucznej inteligencji, pomimo ich imponujących osiągnięć w dziedzinie rozpoznawania obrazów.

Problem staje się szczególnie widoczny, gdy obiekty są fragmentaryczne, zniekształcone lub częściowo zasłonięte. W takich sytuacjach większość modeli AI zawodzi, błędnie klasyfikuje lub całkowicie rezygnuje z próby identyfikacji. Jest to poważna bariera, zwłaszcza w kontekście rosnącego polegania na sztucznej inteligencji w krytycznych zastosowaniach, takich jak samochody autonomiczne, protetyka czy robotyka, gdzie niezawodność postrzegania jest kluczowa.

Ludzka przewaga w testach wizualnych

Zespół EPFL NeuroAI Lab, pod kierownictwem Martina Schrimpfa, postawił sobie za cel systematyczne porównanie sposobów, w jakie ludzie i AI radzą sobie z wizualnymi zagadkami. Ben Lönnqvist, główny autor badania i doktorant EDNE, wraz z Laboratorium Psychofizyki Michaela Herzoga, opracował serię testów rozpoznawania. W badaniu wzięło udział 50 ochotników oraz ponad 1000 sztucznych sieci neuronowych. Zadaniem było zidentyfikowanie obiektów, których kontury były celowo usunięte lub podzielone na segmenty – czasami pozostawało widoczne zaledwie 35% oryginalnego obrysu.

Wyniki zaprezentowane na International Conference on Machine Learning (ICML 2025) w Vancouver, a także dostępne na serwerze preprintów arXiv, jednoznacznie wskazują na to, że w zadaniach wymagających integracji konturowej ludzie konsekwentnie przewyższają najnowocześniejsze systemy AI. Eksperyment objął 20 różnych warunków, zmieniając typ i ilość dostępnej informacji wizualnej, co pozwoliło na precyzyjne porównanie dokładności i zrozumienie reakcji zarówno ludzi, jak i maszyn na rosnący poziom trudności.

Mechanizmy integracji i perspektywy dla AI

Ludzie wykazali niezwykłą odporność na zniekształcenia, osiągając często 50% dokładności rozpoznawania, nawet gdy większość konturu obiektu była niewidoczna. W przeciwieństwie do tego, modele AI w tych samych warunkach często „załamywały się” do poziomu losowego zgadywania. Jedynie modele trenowane na miliardach obrazów zbliżyły się do ludzkiej wydajności, i to tylko wówczas, gdy zostały specjalnie dostosowane do specyfiki obrazów użytych w badaniu.

Dalsza analiza ujawniła, że ludzie wykazują naturalną preferencję do rozpoznawania obiektów, gdy fragmentaryczne części wskazują w tym samym kierunku – zjawisko nazwane „błędem integracyjnym” (integration bias). Kluczowe okazało się to, że modele AI, które zostały przeszkolone w celu rozwinięcia podobnego uprzedzenia, radziły sobie lepiej w przypadku zniekształconych obrazów. Co więcej, specyficzne szkolenie systemów AI pod kątem integracji konturów nie tylko zwiększyło ich dokładność, ale także spowodowało, że skupiły się one bardziej na kształcie obiektu niż na jego teksturze powierzchniowej.

Te odkrycia sugerują, że integracja konturowa nie jest wrodzoną cechą, ale raczej umiejętnością, którą można nabyć poprzez doświadczenie. Dla branż opierających się na wizji komputerowej, takich jak samochody autonomiczne czy obrazowanie medyczne, zbudowanie AI, która postrzega świat bardziej po ludzku, może oznaczać bezpieczniejsze i bardziej niezawodne technologie. Badania te wskazują więc, że najlepszym sposobem na zmniejszenie różnic w zdolnościach poznawczych nie jest wyłącznie doskonalenie architektury AI, lecz zapewnienie maszynom bardziej „ludzkiej” diety wizualnej, obejmującej bogactwo rzeczywistych obrazów, w których obiekty często są częściowo ukryte.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *