OpenAI rozwija narzędzie do generowania muzyki na podstawie treści tekstowych i dźwiękowych
Firma OpenAI, zgodnie z informacjami The Information, rozwija nowe narzędzie zdolne do generowania muzyki na podstawie wprowadzanych tekstów oraz sygnałów audio. Potencjalne zastosowania tej technologii są szerokie, obejmując na przykład dodawanie ścieżki dźwiękowej do już istniejących materiałów wideo lub wzbogacanie wokalu o akompaniament gitarowy.
Obecnie nie jest jasne, kiedy dokładnie OpenAI planuje premierę tego narzędzia, ani czy będzie ono dostępne jako samodzielna aplikacja, czy też zostanie zintegrowane z już istniejącymi produktami firmy, takimi jak ChatGPT czy narzędzie wideo Sora.
Interesującym aspektem prac jest współpraca OpenAI ze studentami z Juilliard School. Ich zadaniem jest adnotowanie partytur muzycznych, co ma służyć jako kluczowy zestaw danych treningowych dla rozwijanej sztucznej inteligencji. Dostarczanie wysokiej jakości, ustrukturyzowanych danych jest fundamentalne dla efektywnego uczenia maszynowego w dziedzinie generowania twórczości artystycznej.
Chociaż OpenAI ma w swoim portfolio wcześniejsze modele generujące muzykę, powstały one przed premierą ChatGPT. W ostatnim czasie firma skupiała się bardziej na rozwoju modeli audio dedykowanych przetwarzaniu mowy, w tym na syntezie mowy (text-to-speech) i rozumieniu mowy (speech-to-text). Na rynku generatywnej muzyki AI działają już inni znaczący gracze, w tym Google oraz Suno, co potęguje konkurencję w tej dynamicznie rozwijającej się niszy.
