GoodNav 7月4日消息,阿里巴巴的通义大模型团队今日开源了首个音频生成模型 ThinkSound。该模型将打破音频生成在画面描述上的限制。
ThinkSound 首创性地将思维链 (CoT) 技术应用于音频生成,使AI能够逐步理解画面事件与声音之间的关联,从而生成高保真度、同步性强的空间音频。它不只是简单的“看图配音”,而是真正地“听懂画面”。
为了让AI能够