Loading...

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

Gemini 2.5 Pro,于深夜刚刚上线!这款「思考」模型专为处理复杂任务设计,拥有卓越的推理能力,一推出就席卷各大排行榜,赢得多项 Top 1,并且创造了历史上最大的分数飞跃记录。

Gemini 2.5 Pro 是一个「思考」模型,可以在回答之前进行思考推理,从而提高其性能并改善其准确性。

谷歌称之为全球最强的模型,具有统一的推理能力,以及用户喜爱的 Gemini 全部功能(包括长上下文和工具等)。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

在多个基准测试中,它达到了 SOTA 水平,并且在 LMArena 中以显著优势排名第一。

现在,Gemini 2.5 Pro 已经位列 Arena 排行榜的第一,并创下历史最大分数飞跃,领先 Grok-3 / GPT-4.5 整整 40 分!

在代号为「nebula」的测试中,它也赢得了所有类别的第一名,并独占数学、创意写作、指令遵循、长查询及多轮对话的五大领域冠军!

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

在困难的提示词和编程两大领域,它与 Grok-3 / GPT-4.5 并列为冠军,在其他比拼中也稍稍胜出,成功夺得榜首!

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

此外,Gemini 2.5 Pro 也成功登顶视觉竞技场(Vision Arena)排行榜!

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

在网页开发领域,它同样表现优异,成功获得网页开发竞技场(WebDev Arena)亚军!

作为首个与 Claude 3.5 Sonnet 的实力相媲美的模型,Gemini 在之前版本基础上实现了质的飞跃。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

此次,谷歌的模型再次展示了巨大的飞跃,不知 OpenAI、Anthropic、DeepSeek 等竞争对手会在多长时间内追赶上来?

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用中向 Gemini Advanced 用户开放,且很快将推出在 Vertex AI 上。

其定价方案将于未来几周内宣布,用户可以在更高的使用配额下,将模型应用于大规模生产环境。

网友在实测中发现,它的确实力惊人,在所有模型中表现突出,第一次尝试就用了几秒解决了一道难题。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

Gemini 2.5 Pro 上线

谷歌表示,在 AI 领域,系统的「推理」能力不仅限于分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智的决策能力。

长期以来,谷歌一直在探寻通过强化学习和思维链提示词等技术,令 AI 更智能、更具推理能力的方法。

在此基础上,他们于 2 月发布了首个思考模型 Gemini 2.0 Flash Thinking。

而今天,通过 Gemini 2.5,他们结合了显著增强的基础模型与改进的后期训练,使模型达到了新的性能水平。

推理和代码能力大幅提升

Gemini 2.5 Pro 展现了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

此外,在各种需要高级推理能力的基准测试中,它也达到了 SOTA 水平。

Gemini 2.5 Pro 不需采用会增加计算成本的技术(如多数投票法),便能在 GPQA 和 AIME 2025 等数学和科学基准评测中出色表现。

并且,在无任何外部工具的情况下,能在挑战人类知识和推理能力的极限的「人类最后的考试」中取得了 18.8% 的准确率,已达行业领先水平。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

在编程能力上,Gemini 2.5 相较于 2.0 版本也实现了质的飞跃,而这仅仅是一个开始。

2.5 Pro 在创建视觉美观的网页应用及智能体代码应用上均表现卓越,同时在代码转换与编辑领域也同样能力出色。

在智能体代码评估的行业标准测试 SWE-Bench Verified 上,Gemini 2.5 Pro 使用自定义智能体配置取得了 63.8% 的优异成绩。

以下示例展示了 Gemini 2.5 Pro 如何通过强大的推理,仅用一行提示就生成可以执行的代码,以创建完整的动画和游戏。

在下面的示例中,仅根据这行 prompt,它便生成了一段 p5js 的交互式动画,展示了「宇宙鱼」的场景,还呈现出鱼类的思维状态。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

它还生成了一个无限的恐龙跑酷游戏,根据以下提示。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

其生成了具有像素化风格的恐龙和有趣的游戏背景,完全符合要求。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

随后,Gemini 2.5 Pro 还通过编程实现了分形可视化,创建了精细的分形图案模拟程序,呈现出神奇的曼德布洛特集合。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

此外,它能构建一个交互式气泡图,直观展示出每个大陆的经济与健康指标随时间的变化。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

或者用一段交互式的 Javascript 动画,展示了旋转六边形中多彩的人工生命群体,并呈现「超新星星云」的感觉。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

另外,它还能开发粒子系统模拟,提供一个 HTML 文件,创造出反射星云的沉浸式交互模拟场景。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

原生多模态与超长上下文

Gemini 2.5 继承并发扬了 Gemini 模型的优势——原生多模态能力及超长上下文长度。

自发布之初,2.5 Pro 就支持 100 万 token 的上下文窗口(200 万 token 也即将上线!),其性能显著超越前代模型。

这让它能够理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

最后,既然谷歌已推出地表最强的模型,接下来的反应如何,我们拭目以待 OpenAI 的动作。

参考资料:

  • https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

  • https://deepmind.google/technologies/gemini/pro/

  • https://x.com/lmarena_ai/status/1904581128746656099

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...