Gen AIR & D

Sztuczna inteligencja uczy się równoważyć wagę tekstu i obrazów. Przełom w multimodalnym uczeniu maszynowym

Multimodalna sztuczna inteligencja, przetwarzająca jednocześnie różne rodzaje danych sensorycznych, wykazuje tendencję do nadmiernego polegania na jednym typie danych. Zespół badawczy z Korea Advanced Institute of Science and Technology (KAIST) znalazł sposób na to, by AI traktowała tekst i obrazy równorzędnie.

Zespół profesora Stevena Euijonga Whanga z Wydziału Inżynierii Elektrycznej opracował innowacyjną metodę augmentacji danych, która umożliwia multimodalnym systemom AI – przetwarzającym równocześnie wiele rodzajów danych – zrównoważone wykorzystanie wszystkich informacji wejściowych. Wyniki badań zostały opublikowane na serwerze preprintów arXiv.

Sztuczna inteligencja działająca multimodalnie łączy różne formy informacji, takie jak tekst i wideo, w celu podejmowania decyzji. Obecnie, jak zauważają badacze, modele AI często polegają nadmiernie na jednym konkretnym typie danych, co skutkuje pogorszeniem wydajności predykcyjnej. Problem ten jest szczególnie widoczny, gdy model ma do czynienia z danymi niskiej jakości lub zaszumionymi.

Rozwiązaniem zaproponowanym przez zespół z KAIST jest celowe trenowanie modeli AI przy użyciu niedopasowanych par danych. W ten sposób model uczy się polegać na wszystkich modalnościach – tekście, obrazach, a nawet dźwięku – w sposób zrównoważony, niezależnie od kontekstu. Kluczem do sukcesu jest więc trenowanie AI na danych, które są na pierwszy rzut oka niespójne.

Dodatkowo, zespół poprawił stabilność działania poprzez włączenie strategii treningowej, która kompensuje dane niskiej jakości, a jednocześnie uwzględnia trudniejsze przykłady. Metoda ta nie jest powiązana z żadną konkretną architekturą modelu i może być z łatwością stosowana do różnych typów danych, co czyni ją wysoce skalowalną i praktyczną.

Profesor Whang podkreśla, że poprawa wydajności AI to nie tylko zmiany w architekturze modelu czy algorytmach. Kluczowe jest zaprojektowanie i wykorzystanie danych do treningu. Badania pokazują, że projektowanie i dopracowywanie samych danych może być skutecznym podejściem, które pomaga multimodalnej AI bardziej równomiernie wykorzystywać informacje, zamiast faworyzować konkretne modalności, takie jak obrazy lub tekst.

Badania były współprowadzone przez doktoranta Seong-Hyeona Hwanga i magistrantkę Soyoung Choi, a profesor Steven Euijong Whang pełnił funkcję autora korespondencyjnego. Wyniki zostaną zaprezentowane na konferencji Conference on Neural Information Processing Systems (NeurIPS 2025), która odbędzie się w grudniu w San Diego w USA i Meksyku.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *