OpenAI 直播狙击谷歌:奥尔特曼 AGI 梗图现场直出,GPT-4o 超强原生生图来袭
不久前,OpenAI 在深夜进行了一场直播,宣布了 GPT-4o 的原生图像生成技术有了重大提升!奥尔特曼亲自参与,展示了多种功能,如自拍转化为梗图和相对论漫画等。然而,与谷歌最近发布的新模型相比,OpenAI 的这一行动显得有些逊色。
就在谷歌推出了名为 Gemini 2.5 Pro 的顶尖模型不久,OpenAI 也有所动作。
奥尔特曼亲自带队,演示了 GPT-4o 图像生成技术的显著升级,包括制作梗图、文本渲染、多轮交互生成和更好的指令遵循等功能。
直播中最引人注目的演示,非这张官方的表情包莫属。
目前,这一功能已在 ChatGPT 和 Sora 中向所有 Plus、Pro、Team 和免费用户开放。
新版本的 Sora 生图的处理时间也较以往延长,但 OpenAI 认为生图的质量及其世界知识,使得用户值得多等几秒。
GPT-4o 原生图像生成正式上线!
在直播中,奥尔特曼表示,ChatGPT 中的原生图像生成功能从今天起正式上线!
GPT-4o 的全模态能力也将融入 Sora 中。
OpenAI 多模态研究负责人 Gabe 提到,两年前他开始这个项目时,对 GPT-4 如何原生支持图像生成充满好奇。
一年后的今天,当模型完成训练时,他看到了令人兴奋的成果。这是一个自 GPT-2 以来令人振奋的时刻。
只需给出以下提示,GPT-4o 就能生成符合要求的图像,还原了所有细节。
|
|
接下来,三位参与者用手机拍了一张自拍,GPT-4o 立即将这张自拍转换为动漫风格。
甚至他们开始官方玩梗,让模型在图像上添加一句「Feel The AGI」,因此诞生了一张新的表情包。
这个过程展现了 GPT-4o 作为全能模型的强大能力。
它不仅是一个语言模型,还涉及图像、音频等多种输入和输出的模态。它能够理解并生成这些模态,并在其中无缝切换。
正如 OpenAI 所说,「我们终于迈出了构建真正集成的多模态模型的步伐。」
紧接着,他们让模型画出一幅关于相对论的漫画,要求通俗易懂并增添一些幽默元素。
这个提示词非常模糊,因此大家都期待着模型会生成怎样的画作,结果果然让人惊喜。
值得注意的是,在这个过程中,模型很可能运用了自身的世界知识,对提示进行了扩展。
然后,他们给了模型一张卡片,希望生成同样风格的图像,而主角从卡片中的巨猫国王换成某位研究者的狗狗。
|
|
此外,卡片上还需要包含一些细节,比如模型的名称和年份,以及狗狗的体重和身高。
可以看到,生成的图像在文本渲染方面表现得相当出色,所有数据都准确无误。
最后一个演示是基于之前生成的内容,制作了一枚纪念币。
并且,还要求采用特定的十六进制代码并加上生成内容的文本和日期。
可以看到,生成的结果非常出色!之前出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期,都在纪念币上完美呈现。
模型之所以能准确完成如此复杂的要求,是因为它采用了非自回归的训练方式,因此能够理解上下文中的文本和多张图像,并以和谐的方式在纪念币上展现出来。
与 GPT-4o 聊天,实现图像定制
总之,使用这一功能后,我们可以创建多种图像,或者将其转换为不同风格。
|
|
从现在开始,利用 GPT-4o 创建和定制图像就像聊天一样容易。
只需描述所需信息,就能获得想要的细节,比如纵横比、使用十六进制代码的精确颜色或透明背景。
|
|
我们可以要求它设计一张信息图,解释牛顿的棱镜宽高比,背景为深蓝色。
生成的图像是一张质量极高的教学图片。
这一图像生成功能的突出之处在于,它能够根据复杂提示进行操作,并极为关注细节。
在 15 个细化要求下,它全部都在一张图中完美实现。
需要指出的是,大多数图像生成模型在面对多个项目时往往会混淆颜色和形状,而这个新模型却能准确处理 15 到 20 个对象的特征,还能够理解各自的复杂需求。
|
|
在你与模型的对话上下文中,GPT-4o 将能够为你构建图像和文本,并保证一致性。
|
|
强调实用性
从最初的洞穴壁画到现代信息图表,人类一直使用视觉图像来进行交流、说服和分析。
虽然当今生成式 AI 模型能够创造出超现实的场景,但依然在处理用于分享和创建信息的实用图像时遇到挑战。
GPT-4o 的图像生成功能善于准确渲染文本,精确遵循提示,并利用其内置的知识库和对话上下文——包括转换上传的图像或将其作为视觉灵感的能力。
这些能力使用户能够更轻松地创建想象中的画面,从而更有效地通过视觉进行沟通,并将图像生成发展为一种精准且强大的实用工具。
毕竟,仅当图像配有指代共享语言和经验的符号时,才能准确传达其含义。
能力显著提升
通过对图像和文本的联合分布训练,模型不仅能学会图像与语言之间的关联,还能理解它们间的相互关系。
得益于积极的后期训练优化,最终模型展现出惊人的视觉表现力,能够生成具实用性、一致性且具上下文感知的图像。
文本渲染
一张图胜过千言万语,但在适当位置添加几个字能够显著提升图像的含义。
GPT-4o 的符号与图像融合能力,使其成为视觉交流的强大工具。
多轮交互生成
由于图像生成现已成为 GPT-4o 的原生功能,用户可以通过自然对话对图像进行细化。
GPT-4o 能够根据聊天上下文中的图像和文本进行构建,确保一致性。
例如,一个正在设计的游戏角色,其外观能够在多次迭代和调整中保持连贯。而且它能够生成非常丰富的背景和细节。
指令遵循
GPT-4o 的图像生成功能不仅能遵循详细提示,而且在细节上也非常用心。
相比于其他只能处理 5-8 个目标的模型,GPT-4o 可以轻松应对多达 10-20 个不同的对象。
而且,物体与其特征及关系的更紧密绑定使得控制更加精准。
上下文内学习
GPT-4o 能够分析并学习用户上传的图像,将图像细节无缝整合到上下文中,以便辅助图像生成。
世界知识
内置的图像生成功能使 GPT-4o 能够连接文本与图像之间的知识,从而使模型的表现更智能、更高效。
真实照片风格
通过对多种图像风格的训练,模型能够以令人信服的方式创建或转换图像。
参考资料:
-
https://openai.com/index/introducing-4o-image-generation/