Abstrakcyjna grafika: Strumienie światła (obrazy, wideo, dokumenty) zbiegają się w centralnym, świetlistym punkcie – zunifikowana wiedza.

VLM2Vec-V2: Nowe podejście do unifikacji wiedzy w modelach wizyjnych

2025-07-28 AI Sight

Dotychczasowe modele osadzania, trenowane na zbiorach danych takich jak MMEB czy M-BEIR, skupiały się głównie na zdjęciach naturalnych z MSCOCO, Flickr czy ImageNet. Brakowało im jednak szerokiego zakresu informacji wizualnych, takich jak dokumenty, pliki PDF, strony internetowe czy filmy. To ograniczenie prowadziło do niższej wydajności w praktycznych zastosowaniach, takich jak wyszukiwanie artykułów, przeszukiwanie stron WWW czy wyszukiwanie treści na YouTube.

Ewolucja w dziedzinie reprezentacji wideo widoczna jest w modelach takich jak VideoCLIP czy VideoCoCa, które zintegrowały uczenie kontrastowe z zadaniami generowania podpisów. Rozwój w obszarze wizualnych dokumentów zaowocował modelami jak ColPali i VisRAG, wykorzystującymi duże modele językowe (VLM) do wyszukiwania dokumentów. Mimo to, żaden z istniejących frameworków nie oferował zunifikowanego podejścia do jednoczesnego przetwarzania obrazów, wideo i dokumentów wizualnych. VLM2Vec-V2 zmienia ten paradygmat.

VLM2Vec-V2: Jedno narzędzie, wiele zastosowań

Kluczem do sukcesu VLM2Vec-V2 jest dwutorowe podejście. Po pierwsze, naukowcy stworzyli MMEB-V2, czyli rozszerzenie wcześniejszego benchmarku MMEB, wzbogacone o pięć nowych typów zadań: wyszukiwanie dokumentów wizualnych, wyszukiwanie wideo, lokalizację czasową, klasyfikację wideo oraz odpowiedzi na pytania dotyczące wideo. Po drugie, sam VLM2Vec-V2 został zaprojektowany jako uniwersalny model osadzania, obsługujący wiele modalności wejściowych i osiągający wysoką wydajność zarówno w nowych, jak i w oryginalnych zadaniach związanych z obrazami.

Model VLM2Vec-V2 wykorzystuje architekturę Qwen2-VL, która została wybrana ze względu na jej zaawansowane możliwości przetwarzania multimodalnego. Qwen2-VL oferuje trzy kluczowe cechy wspierające zunifikowane uczenie osadzeń: dynamiczną natywną rozdzielczość (Naive Dynamic Resolution), multimodalne osadzanie pozycji obrotowej (Multimodal Rotary Position Embedding – M-RoPE) oraz unifikację konwolucji 2D i 3D w jednej architekturze.

Innowacyjne podejście do treningu

Aby umożliwić efektywne trenowanie modelu na zróżnicowanych źródłach danych, VLM2Vec-V2 wprowadza elastyczny potok próbkowania danych z dwoma kluczowymi komponentami. Pierwszy to mieszanie partii danych ad hoc, oparte na predefiniowanych tabelach wag próbkowania, które kontrolują względne prawdopodobieństwa każdego zbioru danych. Drugi to przeplatana strategia podziału partii (interleaved sub-batching), która dzieli pełne partie na niezależnie próbkowane podpartie, poprawiając stabilność uczenia kontrastowego.

Wyniki i perspektywy

VLM2Vec-V2 osiągnął imponujący średni wynik 58,0 w 78 zbiorach danych obejmujących zadania związane z obrazami, wideo i dokumentami wizualnymi, przewyższając silne modele bazowe, takie jak GME, LamRA i VLM2Vec zbudowane na tej samej architekturze Qwen2-VL. W zadaniach dotyczących obrazów VLM2Vec-V2 znacznie outperformed większość modeli bazowych, osiągając wydajność porównywalną z VLM2Vec-7B, mimo że jest modelem o znacznie mniejszej liczbie parametrów (jedynie 2B).

W przypadku zadań wideo, model osiąga konkurencyjne wyniki, pomimo trenowania na stosunkowo niewielkich ilościach danych wideo. W wyszukiwaniu dokumentów wizualnych, VLM2Vec-V2 przewyższa wszystkie warianty VLM2Vec, choć nadal ustępuje specyficznie zoptymalizowanemu dla tego celu ColPali. Podsumowując, VLM2Vec-V2 stanowi solidną podstawę dla bardziej skalowalnego i elastycznego uczenia reprezentacji w badaniach i zastosowaniach praktycznych. Badanie to jest istotnym krokiem w kierunku stworzenia uniwersalnego modelu, który precyzyjnie rozumie i przetwarza złożoną rzeczywistość multimodalną.

VLM2Vec-V2: Jedno narzędzie, wiele zastosowań

Innowacyjne podejście do treningu

Wyniki i perspektywy

Udostępnij:

Zobacz również

Wielkie pieniądze i twarda rzeczywistość: 2025 rokiem weryfikacji dla AI

Sztuczna inteligencja wkracza do atomu. Nuclearn pozyskuje 10,5 mln dolarów na rozwój AI dla energetyki jądrowej

SoftBank rozważa bilionowy projekt AI i robotyki w Arizonie – co z TSMC?

Dodaj komentarz Anuluj pisanie odpowiedzi