SDS 技术首次用于音频:英伟达携手 MIT 推 Audio-SDS,参数化控制 AI 音效生成
GoodNav 5月13日消息,科技媒体marktechpost报道,英伟达与麻省理工学院合作,推出了一种名为Audio-SDS的音频扩散模型扩展技术,该技术基于文本条件进行音频生成。
尽管当前音频扩散模型在生成高质量音频方面表现出色,但优化明确且可解释的参数仍然存在挑战。
英伟达和MIT的研究团队首次将Score Distillation Sampling (SDS) 方法应用于音频领域,通过结合预训练模型的生成能力和参数化音频表示,无需大量特定数据集,即可应用于FM合成器参数校准、物理冲击音合成和音源分离等任务。
SDS技术已广泛应用于文本生成、3D图像和图像编辑。英伟达推出的Audio-SDS技术借鉴了该技术,结合预训练模型的先验知识,能够直接根据高级文本提示调整FM合成参数、冲击音模拟器或分离掩码。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...