Eteryczna sieć neuronowa, symbol MMSearch-R1, z dynamicznymi danymi i lupą, ilustrująca przyszłość wyszukiwania LMM.

MMSearch-R1: Jak nowe podejście do uczenia wzmocnionego rewolucjonizuje zdolność LMM-ów do wyszukiwania informacji

2025-07-14 AI Sight

Duże multimodalne modele (LMM) stanowią trzon współczesnych systemów AI, umożliwiając im interpretację obrazów, odpowiadanie na pytania wizualne i pozyskiwanie informacji. Ich rozwój znacząco poprawił możliwości wirtualnych asystentów i innych aplikacji AI wykorzystywanych na co dzień. Jednak, mimo ogromnych zbiorów danych treningowych, LMM-y mają tendencję do ignorowania dynamicznych lub ewoluujących informacji, zwłaszcza tych pojawiających się po ich wytrenowaniu lub znajdujących się za zastrzeżonymi barierami.

Kluczowym ograniczeniem obecnych LMM-ów jest ich niezdolność do obsługi zapytań wymagających informacji w czasie rzeczywistym lub rzadkich. W obliczu wcześniej niewidzianych danych wizualnych lub nowo pojawiających się faktów, modele te często generują zmyślone odpowiedzi, zamiast przyznać się do braku wiedzy lub poszukać zewnętrznej pomocy. Problem ten staje się krytyczny w zastosowaniach wymagających precyzji, takich jak odpowiadanie na pytania dotyczące bieżących wydarzeń czy szczegółów specyficznych dla danej dziedziny. Te luki nie tylko podważają wiarygodność LMM-ów, ale także sprawiają, że są one nieodpowiednie do zadań wymagających weryfikacji faktów lub aktualnej wiedzy.

Istniejące rozwiązania, takie jak generowanie rozszerzone pobieraniem (RAG) czy agenci wyszukiwania opartych na promptach, próbują adresować te niedostatki. RAG pobiera dane ze statycznych baz, ale często pobiera ich zbyt wiele, zakładając, że wszystkie potrzebne informacje są już dostępne. Agenci oparci na promptach, choć zdolni do wyszukiwania, nie są w stanie optymalizować swojego zachowania w czasie. Ograniczenia te sprawiają, że żadne z tych metod nie jest w pełni adaptacyjne do nieprzewidywalności świata rzeczywistego ani nie wspiera efektywnych interakcji w praktyce.

Nowe horyzonty z MMSearch-R1

W odpowiedzi na te wyzwania, badacze z ByteDance i S-Lab na Nanyang Technological University opracowali MMSearch-R1 — innowacyjny framework, który ma na celu zwiększenie wydajności LMM poprzez uczenie wzmocnione. To nowatorskie podejście polega na trenowaniu modeli tak, aby nie tylko potrafiły wyszukiwać, ale także decydowały, kiedy wyszukiwać, czego szukać i jak efektywnie interpretować wyniki wyszukiwania. MMSearch-R1 jest pierwszym kompleksowym frameworkiem uczenia wzmocnionego, który umożliwia LMM-om przeprowadzanie wieloetapowego wyszukiwania na żądanie w środowiskach internetowych. System ten integruje narzędzia do wyszukiwania obrazów i tekstu, uruchamiane w zależności od oceny modelu, a nie według stałego schematu.

Sercem tego systemu jest Group Relative Policy Optimization (GRPO), wariant algorytmu PPO. MMSearch-R1 działa na zasadzie systemu nagród, który promuje dokładne odpowiedzi i zniechęca do niepotrzebnych wyszukiwań. Model wykonuje wiele rund interakcji, oceniając, czy potrzeba więcej informacji, a jeśli tak, wybiera między wyszukiwaniem tekstowym a obrazowym. Na przykład, wykorzystuje SerpApi do zwrotu pięciu najbardziej pasujących obrazów lub stron internetowych oraz Jina Reader i Qwen3-32B do pobierania i podsumowywania istotnych treści. Model jest trenowany tak, aby zamykał procesy rozumowania w predefiniowanych formatach, co pomaga strukturyzować odpowiedzi, działania wyszukiwania i pobrane treści.

Wyniki i perspektywy

W testach, MMSearch-R1-7B przewyższył inne bazowe modele rozszerzone pobieraniem podobnej wielkości i niemal dorównał wydajności większego modelu RAG-32B. Co najważniejsze, osiągnął to, jednocześnie redukując liczbę wywołań wyszukiwania o ponad 30%. Pokazuje to, że model nie tylko dostarcza precyzyjne odpowiedzi, ale robi to również bardziej efektywnie. Wydajność frameworka została oceniona w różnych zadaniach intensywnie wykorzystujących wiedzę, a wyuczone zachowania wyszukiwania wykazały zarówno efektywność, jak i niezawodność. Badacze stworzyli i udostępnili również obszerny zbiór danych, FactualVQA (FVQA), zawierający zarówno przykłady wymagające wyszukiwania, jak i te bez potrzeby wyszukiwania. Ten zrównoważony zbiór danych był kluczowy dla nauki modelu, kiedy zewnętrzne dane są naprawdę niezbędne.

Sama koncepcja MMSearch-R1 stanowi krok naprzód w projektowaniu systemów AI. Zamiast biernie pobierać informacje, MMSearch-R1 zachęca modele do działania z zamiarem, poprawiając zarówno jakość, jak i efektywność odpowiedzi. Rozwiązanie to oznacza prawdziwą zmianę w sposobie, w jaki systemy AI są projektowane do interakcji ze światem, ucząc się wiedzieć, czego nie wiedzą, i odpowiednio na to reagując.

Nowe horyzonty z MMSearch-R1

Wyniki i perspektywy

Udostępnij:

Zobacz również

Hinge wdraża AI, by ożywić rozmowy w randkowaniu online

Sztuczna inteligencja oblewa egzamin przedszkolaka. Wyrafinowane modele tracą wzrok przez „wąskie gardło” słów

Rewolucja AI w programowaniu: Stack Overflow analizuje nastroje deweloperów i trendy płacowe

Dodaj komentarz Anuluj pisanie odpowiedzi