Loading...

阿里通义开源旗下首个音频生成模型 ThinkSound：可像“专业音效师”一样思考

AI前沿资讯6个月前发布 GOODNAV.NET

4.6K 0 0

GoodNav 7月4日消息，阿里巴巴的通义大模型团队今日开源了首个音频生成模型 ThinkSound。该模型将打破音频生成在画面描述上的限制。

ThinkSound 首创性地将思维链 (CoT) 技术应用于音频生成，使AI能够逐步理解画面事件与声音之间的关联，从而生成高保真度、同步性强的空间音频。它不只是简单的“看图配音”，而是真正地“听懂画面”。

为了让AI能够

# AI前沿资讯 # 人工智能 # 通义千问 # 阿里 # 音频生成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

“给 AI 讲故事”就能绕过安全机制，恶意代码编写门槛恐将大幅降低

GoodNav.net

5.2K

英国内阁示警：AI 发展将使该国面临更多、更复杂网络攻击

GoodNav.net

4.1K

因 AI 生成的艺术作品注册申请被拒，当事艺术家向美国版权局提出上诉

GoodNav.net

5.4K

AI 拍“大片”：谷歌发布电影创作应用 Flow，脚本、分镜、镜头控制都能做

GoodNav.net

9.3K

日本气象厅拟引入 AI 天气预测系统，以提升预报精确度

GoodNav.net

4.2K

香港中文大学开发新型基础 AI 模型，多种眼科疾病诊断能力优于人类医生

GoodNav.net

4.8K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2025 goodnav.net All Rights Reserved