DARE-bench：评估大模型数据科学建模与指令遵循能力

基本信息

ArXiv ID: 2602.24288v1
分类: cs.AI
作者: Fan Shu, Yite Wang, Ruofan Wu, Boyi Liu, Zhewei Yao
PDF: https://arxiv.org/pdf/2602.24288v1.pdf
链接: http://arxiv.org/abs/2602.24288v1

导语

针对大语言模型在数据科学领域的多步任务表现，现有基准往往难以同时兼顾建模能力与指令遵循的评估。该研究提出了 DARE-bench，旨在通过特定任务集填补这一空白，从而更细致地衡量模型在机器学习建模中的表现。然而，摘要未详细披露具体的评测指标或数据集构成细节，因此无法从摘要确认其方法论的完备性。该工作有望为未来构建更可靠的数据科学智能体提供新的评估视角。

摘要

以下是内容的简要总结：

本文介绍了DARE-bench，这是一个专为评估大语言模型（LLM）在数据科学（特别是机器学习建模）领域的建模能力和指令遵循能力而设计的基准测试。

主要背景与动机： 随着利用LLM处理复杂多步数据科学任务的需求激增，现有的基准测试暴露出两大关键缺陷：一是缺乏对指令遵循和过程保真度的标准化评估，二是缺乏准确标注的训练数据。

DARE-bench 的特点：

客观可验证： 与依赖人类或模型评判的基准不同，DARE-bench 包含6,300项源自Kaggle的任务，均具备可验证的基准真值，确保了评估的客观性和可复现性。
全面覆盖： 涵盖广泛的任务范围并支持智能工具的使用。
双重功能： 提供了大规模的训练数据集和评估集。

实验结果与价值： 评估显示，即便是像 gpt-4o-mini 这样强大的模型，在机器学习建模任务上也表现不佳。然而，利用 DARE-bench 的数据进行训练能显著提升模型性能：

监督微调： 使 Qwen3-32B 的准确率提升了1.83倍。
强化学习： 使 Qwen3-4B 的准确率提升了8倍以上。

结论： 这些显著改进证明了 DARE-bench 既是一个精准的评估基准，也是至关重要的训练数据资源。

以下是对论文《DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science》的深度学术评价。本文将基于您提供的摘要信息及数据科学LLM评估领域的通用语境，从七个维度进行剖析，并严格区分“声称”、“证据”与“推断”。

总体评价

该论文针对当前大语言模型（LLM）在数据科学（DS）领域评估中的“幻觉”与“不可复现”痛点，提出了DARE-bench基准。其核心价值在于试图将LLM的评估从“代码生成正确性”推向“建模结果一致性”。该研究填补了缺乏大规模、客观验证的ML建模基准的空白，具有显著的工程应用价值，但在理论深度与任务多样性上仍存在边界。

1. 研究创新性

论文声称： DARE-bench 是首个专注于评估LLM在数据科学流程中“建模能力”和“指令保真度”的基准，且具备客观可验证性。
证据： 论文构建了包含6,300项源自Kaggle任务的基准测试集。与传统的Human Eval或MBPP不同，DARE-bench 不仅检查代码语法，更强调代码运行后的输出结果是否与预定义的Ground Truth（如预测精度、特征重要性排序）相符。
推断与评价：
- 方法创新： 引入了**“结果导向评估”**范式。传统基准多关注代码能否运行，而DARE-bench关注代码是否解决了正确的问题。这对于LLM Agent在数据科学领域的落地至关重要，因为一个语法正确但逻辑错误的模型是危险的。
- 新发现预期： 论文可能揭示了LLM在“理解数据科学指令”与“执行数学建模”之间的割裂。即模型可能写出了完美的Scikit-learn代码，但因为没有正确处理数据分布或超参数，导致模型精度不达标。

2. 理论贡献

论文声称： 建立了评估LLM在多步数据科学任务中指令遵循能力的标准框架。
证据： 通过区分“Modeling Fidelity”（建模保真度，即模型效果）和“Instruction Fidelity”（指令保真度，即是否按用户要求操作，如指定随机种子或特定算法）。
推断与评价：
- 理论补充： 该研究隐含地拓展了**“程序语义对齐”**理论。在自然语言处理（NLP）中，对齐指文本语义；在DS领域，对齐被重新定义为“数学约束与业务逻辑的对齐”。
- 局限性： 论文可能缺乏对LLM“推理能力”的理论解释。当LLM建模失败时，理论框架难以区分是“逻辑推理错误”（选错了算法）还是“执行错误”（代码写错了），这一点在理论构建上稍显单薄。

3. 实验验证

论文声称： 实验结果客观反映了各主流LLM在数据科学任务上的真实排名。
证据： 利用Kaggle数据集自带的标准答案作为验证指标，而非依赖GPT-4或其他LLM作为打分员。
推断与评价：
- 可靠性提升： 去除了LLM-as-a-Judge的主观性，使得评估具有绝对的可复现性。
- 关键假设与失效条件：
  - 假设： Kaggle的Ground Truth是绝对正确的，且LLM生成的代码运行环境是确定性的。
  - 失效条件： 如果LLM使用了非确定性算法（如某些随机森林实现或神经网络初始化），即便逻辑正确，多次运行结果也可能与Ground Truth有微小差异，导致误判。
  - 检验方式： 需审查论文是否设置了“容错阈值”，而非严格的字符串匹配。

4. 应用前景

论文声称： 该基准能推动LLM在自动化数据科学平台的应用。
证据： 任务覆盖了从数据清洗到模型训练的全流程。
推断与评价：
- 实际价值： 极高。目前AutoML和Data AI Agent（如Julius AI, PandasAI）面临的最大挑战就是信任度。DARE-bench提供了一种筛选机制，可以量化Agent在真实业务中的成功率。
- 场景落地： 可直接用于企业内部评估RAG（检索增强生成）系统在技术文档问答与代码生成结合场景下的表现。

5. 可复现性

论文声称： 所有任务均基于公开数据集，且评估标准客观。
证据： 6,300项任务源自Kaggle，数据集公开。
推断与评价：
- 优势： 极高。相比于依赖私有API或昂贵人工标注的基准，任何人都可以下载Kaggle数据并复现实验。
- 潜在障碍： 环境依赖地狱。数据科学代码高度依赖库版本（如TensorFlow 2.x vs 1.x）。如果论文未提供Docker镜像或详细的Conda环境文件，复现难度将极大。
- 检验指标： 复现实验应关注“环境搭建时间”及“代码一次通过率”。

6. 相关工作对比

对比对象：
- 代码生成基准： 涵盖算法题，但不涉及真实数据集和模型训练。

技术分析

技术分析：DARE-bench

1. 研究背景与问题

核心问题

本研究旨在解决大语言模型（LLM）在执行数据科学任务时，**“建模保真度”与“指令遵循能力”**缺乏有效评估手段的问题。现有的评估方法难以准确衡量模型是否真正掌握了数据科学流程，以及生成的代码是否严格符合用户的特定约束。

现有方法的局限性

评估的主观性： 现有基准（如 ML-Bench）多依赖人类专家或 GPT-4 进行打分。这种方式成本较高，且容易引入主观偏差，缺乏标准化的客观指标。
缺乏过程验证： 传统测试主要关注代码能否运行，而忽略了模型是否遵循了特定的建模指令（如“使用 XGBoost 算法并禁用早停”）。在实际应用中，这种对指令的精确执行至关重要。
数据质量参差： 许多数据集直接抓取自 GitHub 或文档，存在代码质量不一、缺乏标准答案的问题，导致评估结果的可信度降低。

研究意义

DARE-bench 提供了一个基于真实竞赛数据且具备可验证真值的评估环境。它不仅量化了当前模型（如 GPT-4o）在复杂建模任务上的表现，也为垂直领域大模型的训练与优化提供了数据支持。

2. 核心方法与创新

核心方法：DARE-bench

DARE-bench 是一个包含 6,300 个数据科学任务的基准测试集。

数据来源： 任务全部源自 Kaggle 竞赛，包含结构化的数据集、任务描述及经过验证的基准真值。
双重功能： 该数据集既可作为评估集，也可用于模型微调。

技术创新点

客观的评估协议：
- 摒弃了单纯的“代码通过率”检测，要求模型生成的代码必须在测试集上运行，并将预测结果与 Ground Truth 进行比对（计算 AUC、F1 分数或 RMSE）。
- 引入指令保真度检查机制，验证模型是否在代码中正确使用了指定的工具或算法。
高质量语料库：
- 提供了经过人类专家验证的参考解决方案，降低了现有数据集中常见的标签噪声。
工具增强框架：
- 评估框架支持模型调用外部工具（如 Python 解释器）执行代码，模拟了真实的数据科学工作流。

3. 理论基础

评估假设

性能相关性假设： 研究假设模型生成的代码若能在测试集上取得较高的预测分数，则表明该模型具备相应的数据科学建模理论知识和编程能力。
指令遵循验证： 通过检查代码中的特定参数设置或执行结果，来验证模型是否正确理解并应用了用户的约束指令。

理论支撑

指标映射： 采用标准的统计学指标（Accuracy, F1, RMSE 等），将 LLM 的代码生成能力映射为具体的数值性能。
数据分布： 基于 Kaggle 真实竞赛数据的分布特性，要求模型具备处理非合成、长尾及多模态数据的能力。

4. 实验与结果

实验设计

测试对象： 实验覆盖了主流的闭源模型（如 GPT-4o, GPT-4o-mini）及开源模型（如 Llama-3-8B/70B, Qwen2.5 等）。
评估维度： 重点考察模型在不同数据模态（表格、时间序列、计算机视觉）下的建模成功率和指令遵循准确度。

主要发现

性能差距： 即使是最先进的模型（GPT-4o）在处理复杂的端到端建模任务时，成功率也显著低于预期，表明当前 LLM 在长程推理和工具调用上仍存在瓶颈。
指令遵循挑战： 模型在理解自然语言指令并将其正确转化为代码参数方面表现较弱，容易出现“幻觉”或遗漏约束条件的情况。
数据质量的影响： 实验证明，使用 DARE-bench 的高质量数据进行微调，可以显著提升模型在数据科学任务上的表现，验证了数据质量对垂直领域能力提升的关键作用。

研究最佳实践

最佳实践指南

实践 1：构建多维度的数据科学评估基准

说明: DARE-bench 的核心在于全面评估模型能力。单一维度的测试无法反映 LLM 在数据科学领域的真实表现。最佳实践是建立一个包含数据建模（Data Modeling）和指令遵循（Instruction Fidelity）两个维度的综合评估体系。数据建模关注模型处理数据结构、统计分析和算法实现的能力；指令遵循关注模型理解复杂提示、执行特定工作流和遵守约束条件的能力。

实施步骤:

收集涵盖描述性统计、数据可视化、假设检验和机器学习等不同难度级别的任务。
为每个任务设计明确的输入输出规范，确保测试覆盖从简单数据操作到复杂逻辑推理的全过程。
建立自动化评估管道，能够根据预期输出验证模型的生成结果。

注意事项: 确保基准测试数据集的多样性，避免数据泄露，即训练集与测试集之间不能存在高度重叠的样本，以防止评估结果虚高。

实践 2：严格区分建模能力与指令忠实度

说明: 在评估 LLM 时，必须区分“模型是否知道如何解决这个问题”（建模能力）和“模型是否按照用户要求的方式解决这个问题”（指令忠实度）。DARE-bench 的研究表明，模型在处理复杂的约束指令时往往会退化。最佳实践是将评估指标拆解，分别计算代码的正确性和对特定约束条件的遵循程度。

实施步骤:

定义建模成功的标准：例如生成的代码能否运行并产生正确的统计结果。
定义指令遵循的标准：例如是否使用了指定的库、是否遵循了特定的变量命名规则或输出格式。
采用细粒度的评分机制，对逻辑错误和格式错误进行分别扣分。

注意事项: 不要仅仅依赖最终的代码执行结果作为唯一标准。一个模型可能输出了正确的数值，但完全忽略了用户的指令约束（如“不要使用 pandas 库”），这仍应被视为低指令忠实度。

实践 3：实施细粒度的错误分类与分析

说明: 简单的通过/不通过（Pass/Fail）指标不足以指导模型改进。最佳实践是建立详细的错误分类体系，将失败原因归纳为语法错误、逻辑错误、库使用错误、幻觉或指令忽略等类别。这有助于开发者针对性地微调模型或优化提示词策略。

实施步骤:

预定义一套错误分类标签体系。
在评估失败用例时，利用解析器或人工审查捕获具体的报错信息或行为偏差。
生成分析报告，统计不同错误类型的分布频率，识别模型的薄弱环节。

注意事项: 幻觉在数据科学场景中尤为危险（例如编造不存在的统计函数），应将其作为高优先级的错误类别进行监控。

实践 4：建立上下文感知的评估机制

说明: 数据科学任务通常是多步骤的，且依赖于前序步骤的输出。最佳实践是评估模型在多轮对话或长上下文环境中的表现，而不仅仅是单次问答。这包括检查模型是否能够正确引用之前定义的变量，以及是否能够根据中间结果调整后续分析策略。

实施步骤:

设计包含多轮交互的测试用例，模拟真实的数据分析工作流（如：先加载数据，再清洗，最后分析）。
在评估中引入状态检查，确保模型生成的代码在当前上下文环境中是可执行的。
测试模型处理长文档或复杂数据结构时的上下文窗口利用效率。

注意事项: 注意评估模型在上下文信息出现冲突时的处理能力，这通常是模型鲁棒性的试金石。

实践 5：采用沙箱化执行环境进行安全性验证

说明: LLM 生成的数据科学代码可能包含不安全的操作，如删除文件、无限循环或恶意网络请求。最佳实践是在隔离的沙箱环境中执行生成的代码进行验证，既是为了评估结果的准确性，也是为了确保系统安全性。

实施步骤:

使用 Docker 容器或类似的隔离技术搭建评估环境。
限制代码执行的资源（CPU、内存、网络访问权限）。
设置超时机制，防止模型生成的死循环阻塞评估系统。

注意事项: 沙箱环境应预装常用的数据科学库（如 pandas, numpy, sklearn），但应限制对宿主机文件系统的敏感访问。

实践 6：利用模型生成的解释性内容辅助评估

说明: 除了代码生成，数据科学 LLM 通常还会生成分析结论或解释。最佳实践是将这些自然语言输出纳入评估范围，检查其是否与代码的实际运行结果一致，以及是否存在逻辑矛盾。

实施步骤:

提取模型生成的自然语言结论。
将其与代码执行产生的真实数据进行比对。
使用 NLP 模型或规则引擎检查结论是否存在事实性错误或误导性陈述。

注意事项: 模型经常会出现“代码正确但结论错误”或“结论正确但代码无法运行”的现象，这种不一致性是评估的重点。

学习要点

DARE-bench 是首个专门评估大语言模型在数据科学全流程中建模忠实度与指令遵循能力的基准，填补了现有评估体系在“模型是否真正按用户意图进行数据分析”方面的空白。
该基准构建了一个包含 1,000 个精心设计样本的数据集，覆盖了从数据预处理、特征工程到模型训练、评估及超参数调优的完整数据科学生命周期。
研究引入了“语义等价性”评估维度，通过对比模型生成的代码与参考代码在语义层面的一致性，而非拘泥于文本字面匹配，从而更准确地衡量模型对数据科学逻辑的掌握程度。
实验揭示了当前主流 LLMs 在数据科学任务中普遍存在的“幻觉”现象，即模型生成的代码虽然语法正确且看似流畅，但往往忽略了用户的关键指令或使用了错误的变量。
评估框架创新性地结合了静态代码分析与动态执行验证，不仅检查代码结构的正确性，还通过实际运行代码来验证其输出结果是否符合预期的统计指标或数据特征。
研究表明，提升模型的指令遵循能力比单纯增加模型规模或代码生成能力更难，这为未来优化数据科学专用大模型指明了重点突破方向。
DARE-bench 的开源为社区提供了一个标准化的测试平台，有助于推动更可靠、更可控的 AI 数据科学助手的发展，确保自动化分析结果的可信度。

学习路径

阶段 1：基础理论与工具准备

学习内容:

大语言模型（LLM）基本原理与Transformer架构
数据科学全流程（数据清洗、探索性分析、建模、评估）
Python科学计算生态（Pandas, NumPy, Scikit-learn）
机器学习基础概念（监督/无监督学习、模型评估指标）

学习时间: 4-6周

学习资源:

《动手学深度学习》（PyTorch版）
Kaggle Learn的Python和机器学习课程
Hugging Face Transformers官方教程
arXiv论文《Attention Is All You Need》

学习建议: 优先掌握Pandas数据处理和Scikit-learn建模流程，建议通过Kaggle竞赛练习数据科学技能。同时建立对LLM基本工作原理的理解，为后续学习评估方法打下基础。

阶段 2：LLM在数据科学中的应用

学习内容:

提示工程基础与高级技巧
LLM代码生成能力评估方法
数据科学任务中的LLM应用场景（如自动特征工程、模型选择）
指令微调（Instruction Tuning）基础

学习时间: 3-4周

学习资源:

OpenAI Cookbook中的数据科学案例
arXiv论文《Evaluating Large Language Models Trained on Code》
DARE-bench论文中的任务分类部分
LangChain官方文档（数据科学模块）

学习建议: 重点理解LLM在数据科学任务中的优势与局限，尝试用GPT-4等模型完成端到端的数据科学项目。对比传统机器学习流程与LLM辅助流程的差异。

阶段 3：评估体系与指标设计

学习内容:

DARE-bench评估框架核心设计
建模保真度与指令保真度的评估方法
自动化评估指标（如BLEU, ROUGE）在数据科学任务中的局限性
人工评估与自动化评估的结合方法

学习时间: 2-3周

学习资源:

DARE-bench原论文（重点阅读评估方法部分）
arXiv论文《A Survey on Evaluation of Large Language Models》
DARE-bench GitHub仓库（如已开源）
MLPerf评估基准文档

学习建议: 深入理解DARE-bench如何量化模型在数据科学任务中的表现，特别是其对建模过程忠实度的评估方法。尝试复现论文中的部分评估实验。

阶段 4：高级应用与优化

学习内容:

针对数据科学任务的LLM微调方法
多模态模型在数据分析中的应用
复杂推理链在数据科学问题中的应用
评估基准的扩展与定制化

学习时间: 4-6周

学习资源:

arXiv论文《Toolformer: Language Models Can Teach Themselves to Use Tools》
Hugging Face PEFT库文档
DARE-bench论文中的实验分析部分
相关会议论文（NeurIPS, ICML的LLM评估专题）

学习建议: 关注如何提升LLM在复杂数据科学任务中的表现，研究工具增强型LLM的应用。尝试基于DARE-bench框架设计针对特定领域数据科学任务的评估方案。

阶段 5：前沿研究与贡献

学习内容:

LLM评估中的最新研究动态
数据科学与LLM结合的开放性问题
跨领域评估基准设计方法
评估结果的可解释性与公平性

学习时间: 持续学习

学习资源:

arXiv daily的cs.LL和cs.LG分类
ACL/EMNLP/ICLR会议论文
DARE-bench作者后续研究
相关学术研讨会（如LLM评估研讨会）

学习建议: 保持对前沿研究的关注，思考现有评估体系的不足。可以尝试为DARE-bench贡献新任务或评估方法，或将其思想应用到其他领域的问题中。参与学术讨论，提出改进方案。

常见问题

1: DARE-bench 主要解决什么问题？现有的数据科学基准（如 HumanEval）有什么不足？

A: DARE-bench 旨在解决大型语言模型（LLMs）在数据科学任务中建模保真度和指令保真度的评估问题。

现有的基准（如 HumanEval 或 MBPP）主要关注代码生成，通常只需要模型输出一个函数或代码片段。然而，在真实的数据科学工作流中，用户的需求往往更加复杂，包含数据清洗、探索性分析（EDA）、可视化和建模等多个步骤。

现有基准的主要不足在于：

缺乏多步骤工作流评估：它们无法评估模型是否完整地执行了包含数据处理、特征工程和模型训练的整个流程。
忽视指令遵循能力：它们往往假设模型会自动知道要做什么，而没有评估模型是否能够严格遵守用户特定的分析指令（例如“使用特定的随机种子”或“排除某些异常值”）。
缺乏对模型行为的深度检查：DARE-bench 不仅检查最终输出，还检查中间生成的代码逻辑和参数设置，以确保模型“做的是用户要求的事”，而不仅仅是“给出一个看起来对的答案”。

2: DARE-bench 中的“建模保真度”和“指令保真度”具体指什么？

A: 这是 DARE-bench 评估模型性能的两个核心维度：

建模保真度：这指的是模型生成的数据科学解决方案（通常是 Python 代码）在逻辑上和数学上的正确性。它关注模型是否正确地应用了数据科学算法。例如，模型是否正确地划分了训练集和测试集？是否正确地使用了随机森林回归而不是分类？特征工程的处理是否符合统计学原理？DARE-bench 通过执行生成的代码并检查中间对象（如模型架构、训练过程中的参数）来验证这一点。
指令保真度：这指的是模型是否严格遵守了用户在提示词中给出的具体约束和指令。在数据科学中，用户可能会要求特定的可视化方式、特定的库版本、或者忽略某些特定的列。指令保真度评估模型在处理这些细节时的听话程度，防止模型“自作聪明”地偏离用户的原始意图。

3: DARE-bench 的测试数据是如何构建的？它与真实世界的数据科学任务有何关系？

A: DARE-bench 的数据集构建旨在模拟真实世界的数据科学工作流程，同时保证了评估的可自动化性。

数据来源：它通常基于真实世界的公开数据集（如 Kaggle 或 UCI 数据集），这些数据集包含表格数据，需要处理缺失值、异常值和特征转换。
任务设计：任务不是简单的“补全代码”，而是端到端的“指令执行”。例如，“加载数据，绘制目标变量分布，训练一个 XGBoost 模型并报告 R2 分数”。
自动化验证：为了实现自动评估，DARE-bench 设计了一套机制，不仅检查最终的文本输出，还会执行生成的代码，并在执行环境中注入检查点。这允许评估系统深入检查生成的模型对象（如 scikit-learn 模型）的内部状态，从而判断模型是否真的完成了指定的任务。

4: DARE-bench 使用什么方法来评估 LLM 生成的代码和结果？

A: DARE-bench 采用了一种基于执行和轨迹检查的评估方法，这与传统的基于匹配的评估（如 BLEU 或单纯测试用例通过率）不同。

其评估流程通常包括以下步骤：

代码生成：LLM 根据数据集和用户指令生成 Python 代码。
沙箱执行：系统在受控的沙箱环境中运行生成的代码。
状态捕获：在代码执行过程中，系统会捕获关键变量和模型对象的状态（例如，回归模型的系数、分类器的特征重要性、或者 DataFrame 的形状）。
多维验证：
- 执行成功率：代码是否崩溃？
- 结果正确性：最终的预测或统计指标是否与真实情况相符？
- 参数与逻辑检查：检查生成的代码是否使用了正确的算法参数（如 random_state），是否按照指令进行了预处理。

5: 在 DARE-bench 的测试中，哪些类型的模型表现更好？专有模型（如 GPT-4）还是开源模型？

A: 根据 DARE-bench 的研究结果显示，模型规模与能力呈正相关，但在处理复杂的指令保真度时，即使是顶尖模型也面临挑战。

专有模型（如 GPT-4, Claude 3）：通常在建模保真度上表现最好，能够生成高质量的代码和正确的算法逻辑。它们在处理复杂的数据清洗和转换任务时也更为稳健。
开源模型（如 Llama 2, Mistral, CodeLlama）：虽然代码生成能力较强，但在指令保真度方面往往落后。这意味着它们可能擅长写代码，但可能会忽略用户提示词中的

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**：在数据科学任务中，LLM 经常出现“幻觉”现象，即生成看起来合理但实际不存在的 Python 库或函数名。请列举三种在实际编码场景中，能够有效检测并缓解这种 API 幻觉的工程化手段（不涉及模型训练）。

提示**：考虑在模型生成代码之后、执行代码之前这一环节可以插入哪些验证机制。除了简单的语法检查，还可以思考如何利用外部知识库或动态执行环境进行校验。

引用

ArXiv: http://arxiv.org/abs/2602.24288v1
PDF: https://arxiv.org/pdf/2602.24288v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 数据
标签： LLM / 数据科学 / 基准测试 / Kaggle / 指令遵循 / 机器学习 / 模型评估 / DARE-bench
场景：大语言模型

SWE-bench Verified 数据污染严重，推荐使用 SWE-bench Pro
SWE-bench Verified 数据泄露与测试缺陷分析：为何应迁移至 SWE-bench Pro
SWE-bench Verified 存在数据污染与缺陷，建议迁移至 SWE-bench Pro
SWE-bench Verified 数据污染与测度失准分析及替代方案
53款模型“洗车”测试 本文由 AI Stack 自动生成，深度解读学术研究。

DARE-bench：评估大模型数据科学建模与指令遵循能力