Gen AILLMR & D

Meta otwiera nowy rozdział w rozumieniu mediów: Perception Encoder Audiovisual (PEAV) zmienia zasady gry

Wraz z dynamicznym rozwojem sztucznej inteligencji, zdolność maszyn do percepcji i interpretacji złożonych danych medialnych staje się kluczowa. Meta ogłosiła wprowadzenie Perception Encoder Audiovisual (PEAV) – innowacyjnego rozwiązania, które ma potencjał fundamentalnie zmienić sposób, w jaki systemy AI rozumieją sygnały audiowizualne w kontekście tekstowym.

PEAV jest rodziną enkoderów zaprojektowaną do wspólnego przetwarzania dźwięku i obrazu, bazującą na zunifikowanym osadzaniu reprezentacji audio, wideo i tekstu w pojedynczej przestrzeni. Kluczowym elementem jest tutaj zastosowanie metody kontrastywnego uczenia na gigantycznej skali danych – około 100 milionów par audiowizualnych, wzbogaconych o opisy tekstowe. To podejście umożliwia modelowi uchwycenie skomplikowanych korelacji między poszczególnymi modalnościami.

Od Perception Encoder do nowej generacji

PEAV stanowi rozwinięcie rdzeniowego stosu przetwarzania wizualnego w projekcie Perception Models firmy Meta, znanego jako Perception Encoder (PE). System PE już wcześniej wykazał się wybitnymi osiągnięciami w przetwarzaniu obrazów, wideo i dźwięku, przewyższając konkurencyjne modele, takie jak SigLIP2 w zadaniach obrazowych i InternVideo2 w zadaniach wideo. PEAV rozszerza te fundamenty, dodając pełną integrację tekstu z danymi audiowizualnymi, umożliwiając kompleksowe rozumienie multimodalne.

Architektura i mechanizmy fuzji

Architektura PEAV opiera się na modułowej budowie, obejmującej enkoder ramki wideo, enkoder wideo, enkoder audio, enkoder fuzji audiowizualnej oraz enkoder tekstu. Ścieżka wizualna wykorzystuje istniejący enkoder ramek PE, na którym następnie działa temporalny enkoder wideo. W przypadku dźwięku wykorzystywany jest koder DAC VAE do konwersji surowych fal dźwiękowych na dyskretne tokeny audio. Te niezależne ścieżki zbiegają się w enkoderze fuzji audiowizualnej, który uczy się wspólnej reprezentacji dla obu strumieni. Enkoder tekstu rzutuje zapytania tekstowe do wyspecjalizowanych przestrzeni, co pozwala na wszechstronne zapytania bez konieczności ponownego trenowania konkretnych zadań.

Silnik danych i syntetyczne opisy audiowizualne

Badacze Meta opracowali dwuetapowy silnik danych audiowizualnych, zdolny do generowania wysokiej jakości syntetycznych opisów dla nieoznakowanych klipów. W pierwszym etapie niskopoziomowe modele opisów audio i wideo, wraz z ich wskaźnikami pewności, są podawane do dużego modelu językowego (LLM). Ten z kolei generuje trzy typy opisów dla każdego klipu: dla treści audio, treści wizualnej i wspólnej treści audiowizualnej. Następnie wstępnie wytrenowany model PEAV jest używany do dalszego szkolenia na tych syntetycznych danych. W drugim etapie PEAV współpracuje z dekoderem Perception Language Model, aby udoskonalić opisy, lepiej wykorzystując korespondencje audiowizualne. Ten proces doprowadził do powstania niezawodnych opisów dla około 100 milionów par audiowizualnych, co stanowi bezprecedensowy zbiór danych w tej dziedzinie.

Cel kontrastywny w dziesięciu parach modalności

PEAV wykorzystuje stratę kontrastywną opartą na funkcji sigmoidalnej, obejmującą reprezentacje audio, wideo, tekstu oraz ich fuzji. Zespół badawczy wskazuje na osiem par strat kontrastywnych w fazie preselekcji, obejmujących kombinacje takie jak audio-tekst, wideo-tekst, audio-wideo-tekst oraz pary związane z fuzją. Podczas dostrajania dodawane są dwie dodatkowe pary, zwiększając łączną liczbę do dziesięciu. To uogólnienie technik uczenia kontrastywnego na trójmodalne szkolenie (audio-wideo-tekst) w jednej przestrzeni osadzania pozwala temu samemu enkoderowi wspierać zadania klasyfikacji, wyszukiwania i dopasowania za pomocą prostych podobieństw iloczynu skalarnego.

Przełomowa wydajność

PEAV osiąga najlepsze wyniki w wielu domenach, w tym w wyszukiwaniu zeroshotowym i klasyfikacji. W porównaniu z istniejącymi modelami, takimi jak CLAP, Audio Flamingo, ImageBind czy LanguageBind, PEAV wykazuje znaczące postępy. Przykładowo, na zbiorze danych AudioCaps, wyszukiwanie tekstu do audio poprawiło się z 35.4 R@1 do 45.8 R@1. W zadaniach klasyfikacji klipu na VGGSound, dokładność wzrosła z 36.0 do 47.1. W przypadku wyszukiwania mowy w zadaniach typu VCTK, PEAV osiąga 85.6% dokładności, gdzie poprzednie modele plasowały się blisko 0%. Na ActivityNet, wyszukiwanie tekstu do wideo poprawiło się z 60.4 R@1 do 66.5 R@1, a w klasyfikacji wideo zeroshotowej na Kinetics 400, wynik wzrósł z 76.9% do 78.9%, przewyższając modele dwu- do czterokrotnie większe.

Perception Encoder Audio Frame (PEA-Frame)

Równocześnie z PEAV, Meta udostępnia Perception Encoder Audio Frame (PEA-Frame), przeznaczony do lokalizacji zdarzeń dźwiękowych. Model ten generuje jedno osadzenie audio co 40 milisekund i jedno osadzenie tekstu dla zapytania, umożliwiając precyzyjne oznaczanie momentów wystąpienia opisanych zdarzeń w długich sekwencjach audio. PEA-Frame wykorzystuje kontrastywne uczenie na poziomie ramki do dopasowania ramek audio z tekstem, co pozwala na dokładne lokalizowanie konkretnych mówców, instrumentów czy dźwięków przejściowych.

Rola w ekosystemie Meta AI

Zarówno PEAV, jak i PEA-Frame, są integralną częścią szerszego ekosystemu Perception Models, który łączy enkodery PE z modelem językowym Perception Language Model w celu multimodalnego generowania i rozumowania. Co więcej, PEAV stanowi rdzeń silnika percepcyjnego nowego modelu Meta SAM Audio oraz jego ewaluatora Judge. SAM Audio wykorzystuje osadzenia PEAV do łączenia wizualnych i tekstowych podpowiedzi ze źródłami dźwięku w złożonych mieszankach, a także do oceny jakości oddzielonych ścieżek audio.

Kluczowe wnioski

PEAV reprezentuje znaczący krok naprzód w dziedzinie przetwarzania multimodalnego. Dzięki zunifikowanemu enkoderowi dla audio, wideo i tekstu, szkolonemu na ogromnych zbiorach danych i wykorzystującemu zaawansowane techniki kontrastywnego uczenia, Meta ustanawia nowe standardy w rozumieniu multimodalnym. Integracja PEAV z ekosystemem Perception Models i SAM Audio otwiera nowe możliwości dla zaawansowanych systemów AI, zdolnych do bardziej naturalnej i precyzyjnej interakcji z otaczającym światem poprzez dźwięk i obraz.