量子位公众号——QbitAI
“目眩神迷,心驰神往”这样的感觉究竟是怎样的呢?
(这句歌词出自《只因你太美》这首歌)
或许下面的音乐能带你进入一个前所未有的情感世界,甚至让专业音乐人坤坤赞叹不已。
这段音乐由Meta最新推出的文生音乐工具MusicGen生成。
只需简单输入一段文字,点击生成按钮,即可得到一段最长不超过30秒的音乐,并且支持中文创作。
不懂乐理也没关系,MusicGen还支持上传已有音乐作为参考。
想要体验更多音乐效果,请关注我们的公众号文章。
比如这段音乐就是在原有旋律基础上重新创作的。
若你不清楚如何开始,也可以参考网上一些用户是如何借助ChatGPT进行创作的:无论国风还是摇滚,甚至两者的结合,MusicGen都能轻松驾驭。
对于国风伴奏,MusicGen同样游刃有余。
若想了解更多音乐效果,请浏览我们的公众号文章。
测试数据显示,MusicGen的综合评分较之谷歌的MusicLM高出了显著的5.36%。
有网友分享了他们的体验感受:
该模型虽然未针对特定乐队名称进行训练,但在用已有风格生成音乐时表现优异。即使网站中的示例经过了挑选,但并不能否认它能创作出高质量的作品。
音乐的合成涉及多段旋律和多种音色(乐器)的协调融合。
与语音合成不同,人类对音乐中的不和谐因素更为敏感。
那么,MusicGen是如何完成这一复杂的任务的呢?
让我们先来了解一下它的训练数据。
Meta团队使用了总计两万小时的音乐数据来训练MusicGen。
其中包括一万条高质量的内部音轨以及来自ShutterStock和Pond5素材库的数据。后者数据量分别达到了2.5万和36.5万。
这些音乐数据在32kHz的采样率下进行重新采样,并附带了流派、BPM等基本信息以及更为详细的文字说明。
除了上述的训练数据,Meta团队还开发了一个名为MusicCaps的评价数据集。
MusicCaps包含了由5500位专业作曲家创作的总计数百首不同流派、长度为10秒的音乐作品。
了解完训练数据后,我们再详细了解一下MusicGen的工作流程。
第一步是将声音信息转化为token的形式进行处理。
这一步使用的是Meta去年推出的卷积网络编码器EnCodec技术。
Meta团队在实验中测试了四种不同的编码方式并最终选择了延时模式进行精准建模。
在核心的Transformer部分,团队分别训练了三个不同参数量的自回归式Transformer模型:300M、1.5B和3.3B。
在混合精度下,训练上述三个参数量的Transformer分别使用了不同数量的GPU:32、64和96块。
对于文字处理部分,Meta团队在评估了多个前人成果后最终选用了Google团队在2020年提出的T5模型进行开发工作。
为了更好地调整音乐旋律,团队选择了无监督的方法进行工作,避免了由于监督数据不足导致出现的过拟合问题。
最终输出的数据将被转换为对数形式并根据编码本生成最终的成品。
目前,有三种方式可以体验到MusicGen的魅力。
官方体验方式
第一种是直接使用官方在Hugging Face上发布的DEMO
传送门:Hugging Face链接(具体链接)
第二种是通过谷歌Colab进行体验。