Loading...

阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

GoodNav 7月4日消息,阿里巴巴的通义大模型团队今日开源了首个音频生成模型 ThinkSound。该模型将打破音频生成在画面描述上的限制。

ThinkSound 首创性地将思维链 (CoT) 技术应用于音频生成,使AI能够逐步理解画面事件与声音之间的关联,从而生成高保真度、同步性强的空间音频。它不只是简单的“看图配音”,而是真正地“听懂画面”。

图片

为了让AI能够

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...