文本生成音樂模型MusicLDM 發(fā)布,有效解決版權(quán)等問題

來源:DoNews快訊


【資料圖】

據(jù) Arxiv 頁面顯示,來自加州大學、蒙特利爾大學等多所高校的研究者近日聯(lián)合發(fā)表論文,介紹了一款名為MusicLDM 的文本生成音樂模型。

該模型利用 Stable Diffusion 和 AudioLDM 架構(gòu),通過在音樂數(shù)據(jù)樣本集上重新訓練對比性語言-音頻預訓練模型(CLAP)和Hifi-GAN聲碼器來實現(xiàn)。為了解決訓練數(shù)據(jù)和版權(quán)問題,研究團隊提出了兩種不同的混合策略:節(jié)拍同步音頻混合和節(jié)拍同步潛在混合,通過重新組合訓練音頻或通過潛在嵌入空間來生成新的音樂。使生成的音樂更多樣化,同時仍忠于相應的風格。

研究顯示,MusicLDM 改善了生成音樂的質(zhì)量和新穎性,以及提示文本和生成音樂之間的關(guān)聯(lián)性。

標簽:

推薦

財富更多》

動態(tài)更多》

熱點