VLM2Vec-V2: Nowe podejście do unifikacji wiedzy w modelach wizyjnych
Dotychczasowe modele osadzania, trenowane na zbiorach danych takich jak MMEB czy M-BEIR, skupiały się głównie na zdjęciach naturalnych z MSCOCO, Flickr czy ImageNet. Brakowało im jednak szerokiego zakresu informacji wizualnych, takich jak dokumenty, pliki PDF, strony internetowe czy filmy. To ograniczenie prowadziło do niższej wydajności w praktycznych zastosowaniach, takich jak wyszukiwanie artykułów, przeszukiwanie stron WWW czy wyszukiwanie treści na YouTube.
Ewolucja w dziedzinie reprezentacji wideo widoczna jest w modelach takich jak VideoCLIP czy VideoCoCa, które zintegrowały uczenie kontrastowe z zadaniami generowania podpisów. Rozwój w obszarze wizualnych dokumentów zaowocował modelami jak ColPali i VisRAG, wykorzystującymi duże modele językowe (VLM) do wyszukiwania dokumentów. Mimo to, żaden z istniejących frameworków nie oferował zunifikowanego podejścia do jednoczesnego przetwarzania obrazów, wideo i dokumentów wizualnych. VLM2Vec-V2 zmienia ten paradygmat.
VLM2Vec-V2: Jedno narzędzie, wiele zastosowań
Kluczem do sukcesu VLM2Vec-V2 jest dwutorowe podejście. Po pierwsze, naukowcy stworzyli MMEB-V2, czyli rozszerzenie wcześniejszego benchmarku MMEB, wzbogacone o pięć nowych typów zadań: wyszukiwanie dokumentów wizualnych, wyszukiwanie wideo, lokalizację czasową, klasyfikację wideo oraz odpowiedzi na pytania dotyczące wideo. Po drugie, sam VLM2Vec-V2 został zaprojektowany jako uniwersalny model osadzania, obsługujący wiele modalności wejściowych i osiągający wysoką wydajność zarówno w nowych, jak i w oryginalnych zadaniach związanych z obrazami.
Model VLM2Vec-V2 wykorzystuje architekturę Qwen2-VL, która została wybrana ze względu na jej zaawansowane możliwości przetwarzania multimodalnego. Qwen2-VL oferuje trzy kluczowe cechy wspierające zunifikowane uczenie osadzeń: dynamiczną natywną rozdzielczość (Naive Dynamic Resolution), multimodalne osadzanie pozycji obrotowej (Multimodal Rotary Position Embedding – M-RoPE) oraz unifikację konwolucji 2D i 3D w jednej architekturze.
Innowacyjne podejście do treningu
Aby umożliwić efektywne trenowanie modelu na zróżnicowanych źródłach danych, VLM2Vec-V2 wprowadza elastyczny potok próbkowania danych z dwoma kluczowymi komponentami. Pierwszy to mieszanie partii danych ad hoc, oparte na predefiniowanych tabelach wag próbkowania, które kontrolują względne prawdopodobieństwa każdego zbioru danych. Drugi to przeplatana strategia podziału partii (interleaved sub-batching), która dzieli pełne partie na niezależnie próbkowane podpartie, poprawiając stabilność uczenia kontrastowego.
Wyniki i perspektywy
VLM2Vec-V2 osiągnął imponujący średni wynik 58,0 w 78 zbiorach danych obejmujących zadania związane z obrazami, wideo i dokumentami wizualnymi, przewyższając silne modele bazowe, takie jak GME, LamRA i VLM2Vec zbudowane na tej samej architekturze Qwen2-VL. W zadaniach dotyczących obrazów VLM2Vec-V2 znacznie outperformed większość modeli bazowych, osiągając wydajność porównywalną z VLM2Vec-7B, mimo że jest modelem o znacznie mniejszej liczbie parametrów (jedynie 2B).
W przypadku zadań wideo, model osiąga konkurencyjne wyniki, pomimo trenowania na stosunkowo niewielkich ilościach danych wideo. W wyszukiwaniu dokumentów wizualnych, VLM2Vec-V2 przewyższa wszystkie warianty VLM2Vec, choć nadal ustępuje specyficznie zoptymalizowanemu dla tego celu ColPali. Podsumowując, VLM2Vec-V2 stanowi solidną podstawę dla bardziej skalowalnego i elastycznego uczenia reprezentacji w badaniach i zastosowaniach praktycznych. Badanie to jest istotnym krokiem w kierunku stworzenia uniwersalnego modelu, który precyzyjnie rozumie i przetwarza złożoną rzeczywistość multimodalną.
