AudioNarzędzia

SAM Audio od Meta: Nowa era separacji dźwięku dzięki wielomodalnym podpowiedziom

Wraz z dynamicznym rozwojem sztucznej inteligencji, specjaliści z Meta zaprezentowali SAM Audio – model separacji dźwięku, który może znacząco usprawnić procesy edycyjne w branży audio. Zamiast tworzyć odrębne modele dla każdej klasy dźwiękowej, SAM Audio oferuje ujednolicone podejście do izolowania pojedynczych elementów z miksu, wykorzystując intuicyjne i wielomodalne podpowiedzi.

Dostępny w trzech głównych wariantach — sam-audio-small, sam-audio-base i sam-audio-large — model jest już do pobrania i testowania w środowisku Segment Anything Playground, co otwiera drogę do szerokiego zastosowania zarówno w środowisku profesjonalnym, jak i wśród entuzjastów.

Architektura i zasada działania

SAM Audio opiera swoje działanie na zaawansowanej architekturze, która integruje wiele strumieni danych. Wykorzystuje oddzielne enkodery dla sygnału audio, naturalnego języka (do deskrypcji tekstowej), kotwic czasowych oraz danych wizualnych, pochodzących z obrazu wideo wzbogaconego o maskę obiektu. Wszystkie te zakodowane strumienie są następnie łączone w spójne, wyrównane w czasie cechy. Kluczowym elementem przetwarzania jest transformator dyfuzyjny, który poprzez mechanizmy uwagi własnej i między-uwagi (cross-attention) przetwarza wejściowe dane. Ostatecznie, dekoder DACVAE rekonstruuje przebiegi fal, generując dwa wyjścia: dźwięk docelowy (target audio) oraz dźwięk resztowy (residual audio).

Czym jest „segmentacja” w kontekście SAM Audio?

Istotą działania SAM Audio jest zdolność do segmentacji, czyli wyodrębniania konkretnego źródła dźwięku z nagrania zawierającego wiele nakładających się warstw – takich jak mowa, dźwięki ulicy czy muzyka. Dla przykładu, jeśli podcast zawiera niepożądane szczeknięcie psa, można je oznaczyć jako dźwięk docelowy, a następnie odjąć, zachowując jedynie dźwięk resztowy. Analogicznie, chcąc wyodrębnić partię gitary z nagrania koncertowego, wystarczy zachować dźwięk docelowy. To dwukanałowe wyjście, obejmujące dźwięk docelowy i resztkowy, jest bezpośrednim odzwierciedleniem operacji edycyjnych, dając użytkownikom elastyczność w manipulacji dźwiękiem.

Trzy typy podpowiedzi

Meta podkreśla, że SAM Audio to ujednolicony model, który obsługuje trzy główne typy podpowiedzi, mogące być używane samodzielnie lub w kombinacji, co stanowi o jego wszechstronności:

  1. Podpowiedzi tekstowe: Pozwalają na opisanie poszukiwanego dźwięku za pomocą naturalnego języka, np. „szczekanie psa” czy „śpiewający głos”. Model następnie izoluje ten dźwięk z miksu. Jest to jedna z podstawowych metod interakcji.
  2. Podpowiedzi wizualne: Umożliwiają wskazanie obiektu w filmie (np. kliknięcie na osobę), aby model mógł wyizolować dźwięk związany z tym obiektem. Podpowiedzi wizualne są realizowane poprzez przekazywanie klatek wideo wraz z maskami do procesora.
  3. Podpowiedzi zakresowe (span prompting): Według Meta, jest to innowacyjne rozwiązanie, umożliwiające oznaczenie konkretnych segmentów czasowych, w których występuje poszukiwany dźwięk. Metoda ta jest szczególnie przydatna w sytuacjach dwuznacznych, np. gdy ten sam instrument pojawia się w różnych fragmentach, lub gdy dźwięk jest obecny tylko krótko, a użytkownik chce zapobiec zbyt agresywnej separacji przez model.

Wyniki i perspektywy

Zespół Meta pozycjonuje SAM Audio jako narzędzie osiągające wiodącą wydajność w różnorodnych, realistycznych scenariuszach. Subiektywne oceny opublikowane przez zespół badawczy, obejmujące kategorie takie jak ogólna wydajność, efekty dźwiękowe, mowa, muzyka czy instrumenty (zarówno w nagraniach studyjnych, jak i na żywo), potwierdzają wysoką skuteczność modelu, zwłaszcza w wariantach sam-audio-large. Szczególnie imponujące wyniki uzyskano dla separacji instrumentów w profesjonalnych nagraniach, gdzie sam-audio-large osiągnął wynik 4.49 na skali ocen.

SAM Audio to nie tylko krok naprzód w separacji dźwięku, ale także świadectwo ewolucji modeli AI w kierunku bardziej intuicyjnych i wszechstronnych narzędzi edycyjnych. Możliwość korzystania z podpowiedzi tekstowych, wizualnych i czasowych w jednym, spójnym rozwiązaniu otwiera nowe możliwości dla twórców treści, inżynierów dźwięku i każdego, kto ma potrzebę precyzyjnej manipulacji elementami audio.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *