谷歌计划融合 Gemini 与 Veo 模型，打造全能 AI 助手

3.7K 0 0

GoodNav 4 月 13 日报道，谷歌 DeepMind 的首席执行官 Demis Hassabis 在与领英联合创始人 Reid Hoffman 共同主持的播客节目 Possible 中透露，谷歌计划整合其 Gemini AI 模型与 Veo 视频生成模型，以增强 Gemini 对现实世界的认知能力。

Hassabis 表示：“我们从一开始就将 Gemini 设计为一个多模态模型，因为我们的愿景是构建一个可以在现实中真正为你提供帮助的通用数字助手。”

目前，整个 AI 行业正在朝着“全能”模型的方向发展，这些模型能够理解和综合多种媒体形式。谷歌最新的 Gemini 模型不仅可以生成图像和文本，还能够生成音频；而 OpenAI 在其 ChatGPT 中的默认模型如今也支持生成图像，包括宫崎骏风格的艺术作品。亚马逊也在计划今年晚些时候推出一款“任意到任意”的模型。

据了解，这些“全能”模型需要大量的训练数据，包括图像、视频、音频和文本等。Hassabis 暗示，Veo 的视频数据主要来源于谷歌的 YouTube 平台。他提到：“通过观看大量的 YouTube 视频，Veo 2 能够领会世界的物理规律。”据悉，谷歌已向 TechCrunch 表示，其模型可能会使用与 YouTube 创作者达成的协议基于“部分”YouTube 内容进行训练。报道指出，该公司去年扩展了服务条款，以获取更多数据来训练其 AI 模型。