英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署
GoodNav 4 月 12 日报道,科技媒体 marktechpost 在昨日(4 月 11 日)发布的博文中指出,英伟达推出了 Llama-3.1-Nemotron-Ultra-253B-v1,这款具有 2530 亿参数的大型语言模型在推理能力、架构效率与生产准备度方面取得了显著进展。
随着 AI 在数字基础设施中的广泛应用,企业和开发者亟需在计算成本、性能和扩展性之间找到平衡。大型语言模型(LLM)的迅速发展提升了自然语言理解和对话能力,但其巨大的规模往往导致效率的低下,进而限制其大规模的部署。
英伟达最新推出的 Llama-3.1-Nemotron-Ultra-253B-v1(简称 Nemotron Ultra)正是针对这一挑战,该模型建立在 Meta 公司的 Llama-3.1-405B-Instruct 架构基础上,专门为商业和企业需求而设计,能够处理从工具使用到多轮复杂指令执行等多种任务。
根据博文的介绍,Nemotron Ultra 采用了仅包含解码器的密集 Transformer 架构,并通过神经架构搜索(NAS)算法进行优化。其创新之处在于运用了跳跃注意力机制,在某些层中省略注意力模块或用简单的线性层进行替代。
此外,前馈网络(FFN)融合技术将多个 FFN 层合并成更宽但层数更少的结构,大幅提高推理速度,同时保持良好的性能。该模型支持 128K token 的上下文窗口,具备处理长篇文本的能力,适合用于高级 RAG 系统和多文档分析。
在部署效率方面,Nemotron Ultra 也有了显著的提升。它能够在单个 8xH100 节点上进行推理,大幅降低了数据中心的成本,提高了企业开发者的可用性。
英伟达通过多阶段后训练进一步优化了模型,包括对代码生成、数学运算、对话及工具调用等任务进行监督微调,并使用群体相对策略优化(GRPO)算法进行强化学习(RL)。这些步骤确保模型在基准测试中展现出色的表现,并与人类的交互偏好高度契合。