告别“默片”:智谱发布新清影,可生成 10 秒 4K60 帧 / 自带音效视频
GoodNav 于11月8日发布消息,智谱技术团队今天推出并开放源代码的最新视频模型 CogVideoX v1.5。与之前的版本相比,CogVideoX v1.5 具备 5/10秒、768P、16帧的视频生成能力,I2V模型可支持任意尺寸比例,显著提高了图像生成视频的质量和复杂语义理解能力。
官方表示,CogVideoX v1.5 将会同步在“清影”平台上线,并与新发布的 CogSound 音效模型结合,“新清影”具备以下特性:
-
质量提升:显著增强了图生视频在质量、美学表现、运动合理性和复杂提示词语义理解方面的能力。
-
超高清分辨率:支持生成10秒、4K、60帧的超高清视频。
-
可变比例:支持任意比例以适应不同播放场景。
-
多通道输出:同一指令/图片可以一次性生成4个视频。
-
带声效的AI视频:新清影能够生成与画面相匹配的音效。
开源地址如下:
代码:
-
https://github.com/thudm/cogvideo
模型:
-
https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...