大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

3.3K 0 0

GoodNav 在 4 月 10 日的消息中，豆包大模型团队宣布，他们的首个多语言 SWE 数据集 Multi-SWE-bench 已经正式开源，目的是为了评估和提升大模型的“自动修 Bug”能力。

基于 SWE-bench，Multi-SWE-bench 首次涵盖了 Python 以外的 7 种主流编程 语言，成为真正面向“全栈工程”的评估基准。该数据集全部来自 GitHub issue，经过近一年的构建，旨在尽可能准确地测评和提升大模型的高阶编程智能水平。

Multi-SWE-bench 的目标是推动自动编程技术的进步，提升其从仅能处理单一语言（如 Python）和低复杂度任务，向支持多语言、具备现实问题解决能力的通用智能体的转变。

SWE-bench 当前是代码修复评测基准中最具代表性的，强调任务的真实性与高复杂度。它基于 GitHub issue，要求模型自动定位并修复 Bug，同时具备跨文件修改、复杂语义推理以及上下文理解等多重挑战。

Multi-SWE-bench 旨在解决现有基准在语言覆盖方面的不足，系统评估大模型在复杂开发环境下的“多语言泛化能力”，推进多语言软件开发 Agent 的评估与研究，其主要特性如下：

首次覆盖 7 种主流编程语言（包括 Java、Go、Rust、C、C++、TypeScript、JavaScript），构建多语言环境下的代码修复任务，以系统评估模型的跨语言适应和泛化能力；
引入任务难度分级机制，将问题分为简单（Easy）、中等（Medium）和困难（Hard）三类，涵盖从单行修改到多文件、多步骤及多语义依赖的开发挑战；
1,632 个实例均来源于真实开源仓库，并经过统一的测试标准和专业开发者的审查，确保每个样本具有清晰的问题描述、正确的修复补丁以及可复现的测试环境。

大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

附开源链接：

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving：