Adobe prezentuje narzędzia AI do manipulacji głosem i edycji audio
Podczas niedawnej konferencji MAX, Adobe uchyliło rąbka tajemnicy nad swoimi najnowszymi osiągnięciami w dziedzinie sztucznej inteligencji, prezentując prototypy zdolne do transformacji postprodukcji audio. Funkcje określane mianem „Corrective AI” oraz „Project Clean Take” mogą w przyszłości znacząco wpłynąć na workflow twórców wideo i audioinżynierów.
Korekta emocji w głosie
Jednym z najbardziej intrygujących rozwiązań jest możliwość modyfikacji emocji w nagranym głosie lektora. W przeciwieństwie do generowania mowy od podstaw, co Adobe już rozwija w ramach Firefly, „Corrective AI” pozwala na subtelne dostosowanie tonu i stylu istniejącego nagrania. To funkcja, która może okazać się nieoceniona w sytuacjach, gdy konieczna jest delikatna zmiana intonacji bez potrzeby ponownego nagrywania całego fragmentu. Chociaż pomysł generowania i modyfikowania głosu przez AI budzi obawy środowisk aktorskich, możliwość „dotknięcia” istniejącego nagrania może być postrzegana jako pragmatyczne narzędzie edycyjne.
Inteligentne rozdzielanie ścieżek audio
Równie imponujący okazał się prototyp o nazwie „Project Clean Take”. Narzędzie to potrafi wydzielić poszczególne elementy z pojedynczej ścieżki audio, takie jak głos, dźwięki otoczenia, efekty dźwiękowe czy muzyka, i umieścić je na oddzielnych kanałach. Demonstracja, w której system skutecznie usunął dźwięk dzwonu mostu zwodzonego zagłuszający lektora, świadczy o znacznym stopniu zaawansowania tej technologii. Co więcej, funkcja ta umożliwia indywidualną regulację poziomów każdego z wyizolowanych elementów, otwierając nowe możliwości w zakresie postprodukcji dźwięku.
Rozwiązania dla twórców treści
„Project Clean Take” oferuje także praktyczne zastosowania w kontekście przestrzegania praw autorskich. W erze restrykcyjnych systemów automatycznej detekcji na platformach takich jak YouTube, nieautoryzowana muzyka w tle może skutkować usunięciem treści. Adobe zademonstrowało, jak ich AI potrafi usunąć muzykę chronioną prawem autorskim z nagrania, zastąpić ją podobnym utworem z biblioteki Adobe Stock, a następnie zaaplikować efekty, aby zachować oryginalną atmosferę dźwiękową. To potencjalne remedium na częsty problem, z którym borykają się twórcy publikujący materiały w przestrzeni cyfrowej.
Automatyzacja efektów dźwiękowych
Kolejnym obszarem, w którym Adobe eksploruje potencjał AI, jest automatyczne generowanie i dodawanie efektów dźwiękowych do materiałów wideo. System potrafi analizować wideo, dzielić je na sceny, identyfikować kontekst emocjonalny i na tej podstawie dobierać odpowiednie efekty. Przykładem było automatyczne dodanie dźwięku budzika w scenie z alarmem czy zamykających się drzwi samochodu. Chociaż system nie jest jeszcze doskonały – niektóre z generowanych dźwięków okazały się nienaturalne – Adobe pracuje nad intuicyjnym interfejsem konwersacyjnym, który pozwoli na iteracyjną korektę i precyzyjne dostosowywanie efektów za pomocą komend tekstowych.
Wpływ na branżę
Prezentowane funkcje, choć jeszcze w fazie eksperymentalnej, wskazują na kierunek rozwoju narzędzi kreatywnych. Historycznie, prototypy pokazywane na „Sneaks” często trafiały do pełnej wersji oprogramowania, jak miało to miejsce z funkcją Harmonize w Photoshopie. Można się więc spodziewać, że zaprezentowane rozwiązania pojawią się w pakiecie Adobe Creative Cloud do 2026 roku.
Wprowadzenie tych innowacji następuje w momencie, gdy branża aktorska, w tym aktorzy głosowi, coraz intensywniej domaga się ochrony przed niekontrolowanym wykorzystaniem sztucznej inteligencji. Niedawny strajk aktorów gier wideo, który zaowocował umowami gwarantującymi zgodę i ujawnienie w przypadku wykorzystania AI do replikacji głosu, podkreśla rosnące napięcia. Chociaż narzędzia Adobe nie generują głosu od zera, ich zdolność do modyfikacji i manipulacji nagraniami stanowi kolejny dowód na to, jak AI zmienia reguły gry w przemyśle kreatywnym, stawiając nowe wyzwania etyczne i prawne.
