Audio

Stable Audio 2.5 od Stability AI: Nowe możliwości generowania dźwięku dla przedsiębiorstw

Na rynku narzędzi AI pojawiła się nowa, interesująca propozycja od Stability AI – Stable Audio 2.5. Ten model generowania dźwięku, stworzony z myślą o zastosowaniach komercyjnych, ma umożliwić przedsiębiorstwom tworzenie wysokiej jakości, konfigurowalnych ścieżek dźwiękowych na dużą skalę.

Stable Audio 2.5 charakteryzuje się szybkością działania. Generowanie trwającego trzy minuty utworu zajmuje zaledwie kilka sekund, dzięki czasowi wnioskowania poniżej dwóch sekund na GPU. Model ten reaguje również na komendy opisujące nastrój, np. „podnoszący na duchu”.

Oprócz funkcji przekształcania tekstu na dźwięk i dźwięku na dźwięk, Stable Audio 2.5 oferuje możliwość tzw. „audio inpainting”, czyli edycji istniejących plików dźwiękowych za pomocą narzędzi AI. Premiera tej wersji nastąpiła 17 miesięcy po wprowadzeniu Stable Audio 2.0 w kwietniu 2024 roku.

Modele audio a przemysł muzyczny

Stable Audio wprowadza odmienną funkcjonalność niż popularne modele generatywnej AI, które skupiają się na mowie, tekście lub obrazie. Jak zauważa Arun Chandrasekaran, analityk Gartnera, modele muzyczne/audio w zastosowaniach komercyjnych to wciąż nisza, co czyni ofertę Stability AI unikalną. Bradley Shimmin z Futurum Group dodaje, że wielu twórców modeli dotychczas zachowywało ostrożność w kwestii generowania muzyki ze względu na potencjalne naruszenia praw autorskich.

Stable Audio 2.5 wydaje się przełamywać te bariery. Dźwięk odgrywa kluczową rolę we wszystkich aspektach działalności firm, od oprogramowania po obsługę klienta. Chandrasekaran przewiduje, że model ten znajdzie zastosowanie w branżach takich jak projektowanie, marketing i komunikacja, gdzie zespoły mogą czerpać korzyści z generowania muzyki i dźwięków.

Funkcja „inpainting” może być również przydatna w centrach kontaktu, gdzie dźwięk jest wykorzystywany w asystentach głosowych, kioskach i urządzeniach sprzedażowych. Model ten trafia w obszary, które są niedostatecznie wykorzystywane, takie jak generowanie i komponowanie muzyki, a także oferuje możliwości klasy enterprise w zakresie podstawowych funkcji dźwiękowych.

Wyzywania i przyszłość modeli audio

Twórcy modeli audio muszą liczyć się z wyzwaniami, zwłaszcza jeśli nie zostaną wprowadzone odpowiednie zabezpieczenia. Firmy takie jak OpenAI i Anthropic mierzą się z pozwami dotyczącymi praw autorskich za wykorzystywanie chronionych danych do trenowania modeli. Stability AI, współpracując z agencją brandingową Amp, wydaje się świadoma tych zagrożeń.

Shimmin przewiduje, że Stability AI i jej partnerzy będą zawierać umowy z producentami audio, aby zapewnić im odpowiednie wynagrodzenie. Istotne jest również, aby klienci Stability AI mieli zapewnione odszkodowanie w przypadku potencjalnych pozwów oraz transparentność w zakresie danych wykorzystanych do trenowania modelu. Stability AI zapewnia, że Stable Audio 2.5 jest bezpieczny pod względem komercyjnym i został wytrenowany na w pełni licencjonowanym zbiorze danych. Model jest dostępny poprzez Stability AI API oraz platformy takie jak Replicate, ComfyUI i Fal.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *