OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

AI前沿资讯5个月前发布 GOODNAV.NET

7.5K 0 0

不久前，OpenAI 在深夜进行了一场直播，宣布了 GPT-4o 的原生图像生成技术有了重大提升！奥尔特曼亲自参与，展示了多种功能，如自拍转化为梗图和相对论漫画等。然而，与谷歌最近发布的新模型相比，OpenAI 的这一行动显得有些逊色。

就在谷歌推出了名为 Gemini 2.5 Pro 的顶尖模型不久，OpenAI 也有所动作。

奥尔特曼亲自带队，演示了 GPT-4o 图像生成技术的显著升级，包括制作梗图、文本渲染、多轮交互生成和更好的指令遵循等功能。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

直播中最引人注目的演示，非这张官方的表情包莫属。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

目前，这一功能已在 ChatGPT 和 Sora 中向所有 Plus、Pro、Team 和免费用户开放。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

新版本的 Sora 生图的处理时间也较以往延长，但 OpenAI 认为生图的质量及其世界知识，使得用户值得多等几秒。

GPT-4o 原生图像生成正式上线！

在直播中，奥尔特曼表示，ChatGPT 中的原生图像生成功能从今天起正式上线！

GPT-4o 的全模态能力也将融入 Sora 中。

OpenAI 多模态研究负责人 Gabe 提到，两年前他开始这个项目时，对 GPT-4 如何原生支持图像生成充满好奇。

一年后的今天，当模型完成训练时，他看到了令人兴奋的成果。这是一个自 GPT-2 以来令人振奋的时刻。

只需给出以下提示，GPT-4o 就能生成符合要求的图像，还原了所有细节。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

接下来，三位参与者用手机拍了一张自拍，GPT-4o 立即将这张自拍转换为动漫风格。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

甚至他们开始官方玩梗，让模型在图像上添加一句「Feel The AGI」，因此诞生了一张新的表情包。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

这个过程展现了 GPT-4o 作为全能模型的强大能力。

它不仅是一个语言模型，还涉及图像、音频等多种输入和输出的模态。它能够理解并生成这些模态，并在其中无缝切换。

正如 OpenAI 所说，「我们终于迈出了构建真正集成的多模态模型的步伐。」

紧接着，他们让模型画出一幅关于相对论的漫画，要求通俗易懂并增添一些幽默元素。

这个提示词非常模糊，因此大家都期待着模型会生成怎样的画作，结果果然让人惊喜。

值得注意的是，在这个过程中，模型很可能运用了自身的世界知识，对提示进行了扩展。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

然后，他们给了模型一张卡片，希望生成同样风格的图像，而主角从卡片中的巨猫国王换成某位研究者的狗狗。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

此外，卡片上还需要包含一些细节，比如模型的名称和年份，以及狗狗的体重和身高。

可以看到，生成的图像在文本渲染方面表现得相当出色，所有数据都准确无误。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

最后一个演示是基于之前生成的内容，制作了一枚纪念币。

并且，还要求采用特定的十六进制代码并加上生成内容的文本和日期。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

可以看到，生成的结果非常出色！之前出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期，都在纪念币上完美呈现。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

模型之所以能准确完成如此复杂的要求，是因为它采用了非自回归的训练方式，因此能够理解上下文中的文本和多张图像，并以和谐的方式在纪念币上展现出来。

与 GPT-4o 聊天，实现图像定制

总之，使用这一功能后，我们可以创建多种图像，或者将其转换为不同风格。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

从现在开始，利用 GPT-4o 创建和定制图像就像聊天一样容易。

只需描述所需信息，就能获得想要的细节，比如纵横比、使用十六进制代码的精确颜色或透明背景。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

我们可以要求它设计一张信息图，解释牛顿的棱镜宽高比，背景为深蓝色。

生成的图像是一张质量极高的教学图片。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

这一图像生成功能的突出之处在于，它能够根据复杂提示进行操作，并极为关注细节。

在 15 个细化要求下，它全部都在一张图中完美实现。

需要指出的是，大多数图像生成模型在面对多个项目时往往会混淆颜色和形状，而这个新模型却能准确处理 15 到 20 个对象的特征，还能够理解各自的复杂需求。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

在你与模型的对话上下文中，GPT-4o 将能够为你构建图像和文本，并保证一致性。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

强调实用性

从最初的洞穴壁画到现代信息图表，人类一直使用视觉图像来进行交流、说服和分析。

虽然当今生成式 AI 模型能够创造出超现实的场景，但依然在处理用于分享和创建信息的实用图像时遇到挑战。

GPT-4o 的图像生成功能善于准确渲染文本，精确遵循提示，并利用其内置的知识库和对话上下文——包括转换上传的图像或将其作为视觉灵感的能力。

这些能力使用户能够更轻松地创建想象中的画面，从而更有效地通过视觉进行沟通，并将图像生成发展为一种精准且强大的实用工具。

毕竟，仅当图像配有指代共享语言和经验的符号时，才能准确传达其含义。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

能力显著提升

通过对图像和文本的联合分布训练，模型不仅能学会图像与语言之间的关联，还能理解它们间的相互关系。

得益于积极的后期训练优化，最终模型展现出惊人的视觉表现力，能够生成具实用性、一致性且具上下文感知的图像。

文本渲染

一张图胜过千言万语，但在适当位置添加几个字能够显著提升图像的含义。

GPT-4o 的符号与图像融合能力，使其成为视觉交流的强大工具。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

多轮交互生成

由于图像生成现已成为 GPT-4o 的原生功能，用户可以通过自然对话对图像进行细化。

GPT-4o 能够根据聊天上下文中的图像和文本进行构建，确保一致性。

例如，一个正在设计的游戏角色，其外观能够在多次迭代和调整中保持连贯。而且它能够生成非常丰富的背景和细节。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

指令遵循

GPT-4o 的图像生成功能不仅能遵循详细提示，而且在细节上也非常用心。

相比于其他只能处理 5-8 个目标的模型，GPT-4o 可以轻松应对多达 10-20 个不同的对象。

而且，物体与其特征及关系的更紧密绑定使得控制更加精准。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

上下文内学习

GPT-4o 能够分析并学习用户上传的图像，将图像细节无缝整合到上下文中，以便辅助图像生成。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

世界知识

内置的图像生成功能使 GPT-4o 能够连接文本与图像之间的知识，从而使模型的表现更智能、更高效。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

真实照片风格

通过对多种图像风格的训练，模型能够以令人信服的方式创建或转换图像。

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

参考资料：

https://openai.com/index/introducing-4o-image-generation/

# AI前沿资讯 # ChatGPT # OpenAI

文章版权归作者所有，未经允许请勿转载。

OpenAI 推迟免费版 ChatGPT 图像生成功能上线时间

GoodNav.net

5.1K

ChatGPT AI 搜索还不是“谷歌杀手”：关键字搜索不靠谱

GoodNav.net

5.9K

因流量压力，OpenAI 暂时禁用 Sora 新用户的视频生成功能

GoodNav.net

4.3K

我为什么离开 OpenAI？六年元老 Miles Brundage 发离职长文：AGI 将至，我们远没准备好

GoodNav.net

OpenAI 悄悄更新 ChatGPT，Plus / Pro 订阅用户可享全局对话内容记忆功能

GoodNav.net

4.7K

阿尔特曼畅想 AI 未来：“魔镜”变革交互、智能体实现速度跃迁、新硬件奏响时代凯歌

GoodNav.net

5.2K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenAI 直播狙击谷歌：奥尔特曼 AGI 梗图现场直出，GPT-4o 超强原生生图来袭

GPT-4o 原生图像生成正式上线！

与 GPT-4o 聊天，实现图像定制

强调实用性

能力显著提升

文本渲染

多轮交互生成

指令遵循

上下文内学习

世界知识

真实照片风格

李飞飞团队具身智能新作：500 美元，一切家务机器人帮你干

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜，创下史上最大分数飞跃纪录

相关文章

暂无评论

相关文章