Loading...

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

GoodNav 在 4 月 10 日的消息中,豆包大模型团队宣布,他们的首个多语言 SWE 数据集 Multi-SWE-bench 已经正式开源,目的是为了评估和提升大模型的“自动修 Bug”能力。

基于 SWE-bench,Multi-SWE-bench 首次涵盖了 Python 以外的 7 种主流编程 语言,成为真正面向“全栈工程”的评估基准。该数据集全部来自 GitHub issue,经过近一年的构建,旨在尽可能准确地测评和提升大模型的高阶编程智能水平。

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

Multi-SWE-bench 的目标是推动自动编程技术的进步,提升其从仅能处理单一语言(如 Python)和低复杂度任务,向支持多语言、具备现实问题解决能力的通用智能体的转变。

SWE-bench 当前是代码修复评测基准中最具代表性的,强调任务的真实性与高复杂度。它基于 GitHub issue,要求模型自动定位并修复 Bug,同时具备跨文件修改、复杂语义推理以及上下文理解等多重挑战。

Multi-SWE-bench 旨在解决现有基准在语言覆盖方面的不足,系统评估大模型在复杂开发环境下的“多语言泛化能力”,推进多语言软件开发 Agent 的评估与研究,其主要特性如下:

  • 首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言环境下的代码修复任务,以系统评估模型的跨语言适应和泛化能力;

  • 引入任务难度分级机制,将问题分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从单行修改到多文件、多步骤及多语义依赖的开发挑战;

  • 1,632 个实例均来源于真实开源仓库,并经过统一的测试标准和专业开发者的审查,确保每个样本具有清晰的问题描述、正确的修复补丁以及可复现的测试环境。

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

附开源链接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

  • 论文链接:https://arxiv.org/ abs / 2504.02605

  • 榜单链接:https://multi-swe-bench.github.io

  • 代码链接:https://github.com/ multi-swe-bench / multi-swe-bench

  • 数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...