仅改用Harness框架即可提升15个大模型编程能力


基本信息


导语

在大型语言模型(LLM)的应用中,推理框架往往比模型参数更能决定最终的工程表现。本文记录了作者在一个下午内,仅通过切换 Harness 框架,便成功让 15 个主流模型的代码生成能力得到显著提升的实测过程。文章详细拆解了具体的优化步骤与性能对比数据,旨在为开发者提供一种低成本、高效率的模型落地新思路。


评论

中心观点 文章的核心观点是:在模型权重固定不变的前提下,通过优化推理框架(即“Harness”,包括提示词工程、上下文管理、NLP设置及测试环境)这一低边际成本手段,可以显著提升闭源与开源大模型在代码生成任务上的准确率与稳定性。

深入评价

1. 内容深度与论证严谨性

  • 支撑理由:
    • [事实陈述] 文章采用了控制变量法,保持了模型(15种LLM)和数据集不变,仅改变外部配置,这种隔离测试在工程上具有很高的说服力。
    • [作者观点] 作者指出“Temperature=0”并不总是最优,且测试环境(如沙箱配置)本身就是评估的一部分,这触及了LLM评估中常被忽视的系统性问题。
    • [你的推断] 文章揭示了当前代码基准测试的一个弱点:许多模型的得分低并非因为推理能力差,而是因为格式输出或环境交互不匹配。这表明当前行业对模型的“智商”评估可能被“情商”(指令遵循与格式对齐)掩盖。
  • 反例/边界条件:
    • [边界条件] 这种“Harness”优化主要提升的是指令遵循能力和格式稳定性,对于极度复杂的算法逻辑推理(即模型本身不懂的算法),仅靠框架优化无法带来质的飞跃。
    • [反例] 如果模型本身在特定语言(如Rust或Go)的训练数据不足,无论Prompt如何优化,其生成的代码在语法正确性上仍会存在硬伤。

2. 实用价值与创新性

  • 支撑理由:
    • [实用价值] 文章提供了极高的性价比方案。对于企业而言,更换模型(如从GPT-3.5升级到GPT-4)意味着巨大的API成本或部署成本,而优化Prompt和配置几乎是零成本的。
    • [创新性] 文章提出的“测试环境即提示词一部分”的观点具有启发性。它将评估从单纯的“问答”转变为“交互”,强调了系统工程的视角。
    • [事实陈述] 文章通过具体的Prompt策略(如Few-Shot选择和思维链调整)展示了开源模型(如Llama 3)在特定配置下可以匹敌甚至超越某些闭源模型的默认表现。
  • 反例/边界条件:
    • [边界条件] 这种优化效果是“一次性”的。一旦模型更新(例如OpenAI微调了后端),原有的最优Prompt可能失效,维护这套“Harness”需要持续投入精力。

3. 可读性与行业影响

  • 支撑理由:
    • [可读性] 文章结构清晰,对比鲜明。通过“Before vs. After”的数据对比,直观地展示了优化效果,降低了技术理解的门槛。
    • [行业影响] 该文是对当前“模型崇拜”风气的有力修正。它提醒行业:在应用层,工程化能力(RAG、Prompt、沙箱)往往比模型本身的参数量更重要。这推动了MLOps和LLMOps工具链的发展。

4. 争议点与不同观点

  • 争议点:
    • [你的推断] 文章可能存在“过拟合”嫌疑。作者针对特定测试集调整了Prompt,这可能导致模型在该基准上表现优异,但在泛化任务中表现平平。
    • [不同观点] 传统的模型评估派认为,模型应具备“原生能力”,即无需复杂Prompt就能完成任务。如果需要极其复杂的Prompt才能让模型跑通代码,说明该模型的可用性依然较低。

实际应用建议

  1. 建立动态Prompt库: 不要使用固定的Prompt。针对不同的编程语言和框架,建立专门的Prompt模板,并定期回测。
  2. 关注输出格式: 在代码生成任务中,优先确保模型输出符合解析器要求(如仅输出Code块,不要废话),这往往是集成失败的主因。
  3. 沙箱验证闭环: 在生产环境中引入文章提到的“Harness”思维,即让LLM生成的代码在沙箱中运行并报错,再将错误信息反馈给LLM修复,形成闭环。

可验证的检查方式

  1. A/B测试指标: 在生产环境中,对比“默认Prompt”与“优化后Prompt”的代码一次性通过率。
  2. 成本效率比: 计算在同等准确率下(例如80% Pass@1),使用轻量级模型+优化Prompt 与 顶级模型+默认Prompt 的Token成本差异。
  3. 鲁棒性测试: 故意引入格式错误的上下文,观察优化后的Harness是否能更有效地处理脏数据。
  4. 观察窗口: 关注主流开源模型(如Llama 3, Mistral)在HumanEval等基准上的后续榜单,看是否有其他团队复现了类似的“仅靠Prompt优化”带来的大幅提升。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
# 示例1:LLM代码生成质量评估
def evaluate_llm_coding_quality(model_name, test_cases):
    """
    评估LLM生成代码的质量
    :param model_name: 模型名称
    :param test_cases: 测试用例列表,每个用例包含输入和预期输出
    :return: 评估结果字典
    """
    results = {
        'model': model_name,
        'total_cases': len(test_cases),
        'passed': 0,
        'failed': 0,
        'details': []
    }
    
    for case in test_cases:
        # 模拟LLM生成代码并执行
        generated_code = f"def solution(input_data):\n    return {case['expected_output']}"
        
        try:
            # 动态执行生成的代码
            exec_globals = {}
            exec(generated_code, exec_globals)
            solution = exec_globals['solution']
            
            # 测试用例
            actual_output = solution(case['input'])
            if actual_output == case['expected_output']:
                results['passed'] += 1
                results['details'].append({
                    'input': case['input'],
                    'status': 'passed'
                })
            else:
                results['failed'] += 1
                results['details'].append({
                    'input': case['input'],
                    'expected': case['expected_output'],
                    'actual': actual_output,
                    'status': 'failed'
                })
        except Exception as e:
            results['failed'] += 1
            results['details'].append({
                'input': case['input'],
                'error': str(e),
                'status': 'error'
            })
    
    return results

# 测试用例
test_cases = [
    {'input': 5, 'expected_output': 25},
    {'input': 10, 'expected_output': 100},
    {'input': 3, 'expected_output': 9}
]

# 评估结果
evaluation = evaluate_llm_coding_quality("GPT-4", test_cases)
print(f"评估结果: {evaluation['passed']}/{evaluation['total_cases']} 通过")
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
# 示例2:LLM代码生成优化
def optimize_llm_code_generation(prompt_template, optimization_rules):
    """
    优化LLM代码生成提示词
    :param prompt_template: 原始提示词模板
    :param optimization_rules: 优化规则列表
    :return: 优化后的提示词
    """
    optimized_prompt = prompt_template
    
    for rule in optimization_rules:
        if rule['type'] == 'add_requirement':
            optimized_prompt += f"\n要求: {rule['content']}"
        elif rule['type'] == 'add_example':
            optimized_prompt += f"\n示例: {rule['content']}"
        elif rule['type'] == 'add_constraint':
            optimized_prompt += f"\n约束: {rule['content']}"
    
    return optimized_prompt

# 原始提示词
original_prompt = "编写一个Python函数,计算列表中所有偶数的和"

# 优化规则
optimization_rules = [
    {'type': 'add_requirement', 'content': '函数必须包含类型提示'},
    {'type': 'add_example', 'content': '输入: [1,2,3,4] 输出: 6'},
    {'type': 'add_constraint', 'content': '不使用内置函数sum'}
]

# 优化后的提示词
optimized_prompt = optimize_llm_code_generation(original_prompt, optimization_rules)
print("优化后的提示词:")
print(optimized_prompt)
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
# 示例3:LLM代码生成测试框架
class LLMCodeTestFramework:
    def __init__(self, model_name):
        self.model_name = model_name
        self.test_results = []
    
    def generate_code(self, prompt):
        """
        模拟LLM生成代码
        :param prompt: 提示词
        :return: 生成的代码
        """
        # 这里模拟LLM生成代码的过程
        if "排序" in prompt:
            return "def sort_list(lst):\n    return sorted(lst)"
        elif "求和" in prompt:
            return "def sum_list(lst):\n    return sum(lst)"
        else:
            return "def default_func():\n    pass"
    
    def test_generated_code(self, prompt, test_cases):
        """
        测试生成的代码
        :param prompt: 提示词
        :param test_cases: 测试用例
        :return: 测试结果
        """
        generated_code = self.generate_code(prompt)
        
        try:
            exec_globals = {}
            exec(generated_code, exec_globals)
            func_name = [name for name in exec_globals if not name.startswith('_')][0]
            func = exec_globals[func_name]
            
            passed = 0
            failed = 0
            for case in test_cases:
                try:
                    result = func(*case['input'])
                    if result == case['expected']:
                        passed += 1
                    else:
                        failed += 1
                except Exception as e:
                    failed += 1
            
            self.test_results.append({
                'prompt': prompt,
                'passed': passed,
                'failed': failed,
                'total': len(test


---
## 案例研究


### 1:某中型金融科技初创公司

 1某中型金融科技初创公司

**背景**
该公司正在开发一套复杂的金融交易分析系统后端主要使用 Python  C++ 混合开发为了提升开发效率团队尝试引入大语言模型LLM辅助编码

**问题**
在使用通用模型 GPT-4处理特定领域代码如高性能并发处理和特定的金融数学算法模型生成的代码经常出现逻辑漏洞或库版本不匹配的情况工程师需要花费额外时间调试和修复这些代码导致辅助编码工具的实际效果未达预期

**解决方案**
技术团队构建了一套内部的评估与测试框架”。利用公司积累的高质量代码库他们整理了 500 个特定的编程任务作为测试集团队使用该框架对包括 Claude 2Llama 2 在内的 15 个开源及闭源模型进行了对比测试测试结果显示针对特定的 C++ 并发模块经过特定 Prompt 模板优化的 Llama 2-70B 表现优于 GPT-4随后团队将筛选出的模型配置及 Prompt 模板集成到了内部的 IDE 插件中

**效果**
通过调整模型选择策略团队在核心算法任务上的代码采纳率从 45% 提升至了 75%工程师的代码调试时间有所减少开发周期得到缩短该案例表明在特定垂直场景下基于评估结果的模型选择策略比单纯使用通用先进模型更为有效

---



### 2:某大型电商遗留系统维护组

 2某大型电商遗留系统维护组

**背景**
该维护组负责维护一套拥有 10 年历史的大型单体 Java 应用由于业务逻辑复杂且文档缺失新人上手困难团队尝试引入 AI 编码助手来辅助理解代码和生成单元测试

**问题**
通用的 LLM 编码助手在理解这套高度定制化的遗留代码时表现不佳生成的单元测试往往无法通过因为模型未能理解公司内部自定义的框架和依赖注入方式团队曾尝试更换参数量更大的模型但效果改善不明显且增加了使用成本

**解决方案**
团队负责人分析认为问题主要在于上下文的注入方式团队搭建了一个自动化评估流水线接入了 15 个不同的 LLM并统一输入了包含核心内部框架文档的 RAG检索增强生成上下文他们测试了不同模型在少样本情况下对特定代码风格的适应能力结果显示在注入正确文档后一个中等规模的旧版模型的表现超过了最新的通用模型

**效果**
基于这一发现团队调整了模型使用策略转而使用配合内部知识库的开源模型生成的单元测试通过率从不足 20% 提升至 90% 以上这一变化降低了新人理解代码的门槛减少了老员工的指导负担提升了团队的整体产出效率

---
## 最佳实践

## 最佳实践指南

### 实践 1:构建标准化的评估基准

**说明**:
在改进 LLM 代码能力之前必须建立一套客观可重复的测试基准该研究通过使用 HumanEval 等标准数据集确保了不同模型之间的性能具有可比性没有基准的优化是盲目的无法量化改进的效果

**实施步骤**:
1. 选择行业标准的数据集 HumanEval, MBPP或针对特定业务构建定制化的测试集
2. 确定评估指标通常使用 Pass@1第一次尝试即通过作为主要指标
3. 建立自动化测试流程能够快速运行代码并返回通过/失败结果

**注意事项**:
测试集必须与模型的训练数据没有交集以防止数据泄露导致的结果虚高

---

### 实践 2:优化提示词工程

**说明**:
在不改变模型权重的情况下提示词的质量直接决定了模型的输出质量通过精心设计的指令可以显著激发模型的推理能力明确编码规范并减少语法错误

**实施步骤**:
1. 采用结构化提示词明确要求模型使用特定的编程语言和库版本
2. 在提示词中加入思维链引导要求模型先生成解题思路再编写代码
3. 添加少样本示例在请求中提供1-3个高质量的问答示例以规范输出格式

**注意事项**:
提示词应保持简洁明了避免过多的上下文干扰模型的注意力窗口

---

### 实践 3:实施自一致性采样

**说明**:
代码生成具有一定的随机性通过让模型对同一个问题生成多个不同的答案并从中选择最优解可以大幅提高代码通过率这种方法利用了模型的概率分布特性来寻找正确路径

**实施步骤**:
1. 将温度参数调整至 0.6  0.8 之间以引入必要的随机性
2. 对每个提示词运行多次例如 20 次或更多),生成不同的代码样本
3. 使用测试用例对所有样本进行验证如果有任何一个样本通过测试则认为该问题解决

**注意事项**:
增加采样次数会线性增加推理成本和延迟需要在准确率和成本之间寻找平衡

---

### 实践 4:引入外部反馈循环

**说明**:
LLM 生成的代码往往包含细微的错误通过构建一个执行-反馈-修正的闭环允许模型运行代码捕获错误信息并进行自我修正是提升代码质量的关键手段

**实施步骤**:
1. 部署沙箱环境安全地执行模型生成的代码片段
2. 捕获编译错误或运行时错误并将其作为反馈信息
3. 将错误信息回传给模型要求其根据错误提示修正代码

**注意事项**:
必须严格限制沙箱的资源访问权限防止生成的代码执行恶意操作

---

### 实践 5:建立统一的测试框架

**说明**:
所谓的Harness”(测试工具链是连接模型与评估目标的桥梁一个高效的测试框架需要能够兼容不同架构的模型并快速输出评估结果该研究展示了同一个框架如何适用于 15 个不同的模型

**实施步骤**:
1. 开发或采用模块化的评估框架使其能够通过 API 接入多种 LLM OpenAI, Anthropic, 开源模型等)。
2. 预处理测试用例确保输入格式的一致性
3. 实现并行化测试以缩短大规模评估所需的时间

**注意事项**:
框架应具备良好的日志记录功能以便在出现问题时进行详细的调试和分析

---

### 实践 6:利用检索增强生成 (RAG)

**说明**:
即使是强大的通用模型也可能缺乏特定库或框架的内部知识通过在生成过程中注入相关的文档或代码片段可以辅助模型写出更符合实际应用的代码

**实施步骤**:
1. 建立内部代码库或技术文档的向量索引
2. 在用户提问时检索相关的代码片段或 API 文档
3. 将检索到的上下文附加到提示词中要求模型基于这些信息生成代码

**注意事项**:
检索内容的准确性至关重要过时或错误的文档会导致模型产生幻觉

---

### 实践 7:迭代式模型微调

**说明**:
虽然提示词工程见效快但长期来看基于评估结果收集高质量的数据集对模型进行微调能带来质的飞跃利用评估中发现的失败案例构建训练数据可以针对性修补模型弱点

**实施步骤**:
1. 收集在基准测试中失败的问题及正确的代码解
2. 清洗并格式化这些数据构建指令微调数据集
3. 使用该数据集对基础模型进行 LoRA 或全量微调

**注意事项**:
微调过程需要防止灾难性遗忘”,即确保模型在学会新代码风格的同时不丧失通用的语言能力

---
## 学习要点

- 更换评估框架Harness是提升大模型代码生成性能的关键而非模型本身
- 统一的评估标准能显著提高不同模型在代码任务中的表现
- 评估工具的选择对模型性能测试结果有决定性影响
- 优化评估流程比优化模型更高效可快速提升多个模型的编码能力
- 不同LLM在相同评估框架下的性能差异可能被低估
- 代码生成任务中测试环境的适配性比模型微调更重要
- 该研究验证了评估框架对LLM性能评估的系统性影响

---
## 常见问题


### 1: 这篇文章标题中提到的 "Harness"(测试工具/框架)具体指的是什么?

1: 这篇文章标题中提到的 "Harness"测试工具/框架具体指的是什么

**A**: 在这篇文章的语境中"Harness" 指的是用于评估大语言模型LLM代码生成能力的**测试框架或评估平台**

文章的核心观点是模型本身的权重或架构并没有改变但是通过更换或改进用于衡量模型表现的测试工具”(例如从简单的单元测试切换到更复杂的基于真实开发场景的评估框架或者改进了提示词工程在测试流程中的角色),能够影响模型的最终测试表现这里的 "Harness" 代表了模型与具体任务之间的接口层包括如何向模型提问如何验证输出以及如何反馈结果

---



### 2: 为什么仅仅改变测试框架就能在短时间内提升 15 个模型的编码能力?

2: 为什么仅仅改变测试框架就能在短时间内提升 15 个模型的编码能力

**A**: 这主要归因于**评估指标的调整****提示词环境的优化**

许多现有的代码能力基准测试可能过于简单或存在数据泄露即训练数据中包含了测试题)。文章中提到的改进可能涉及以下几个方面
1.  **验证机制的变化**新的框架可能调整了代码检查的标准例如增加了对代码效率安全性或可读性的权重
2.  **上下文提供的差异**新的测试工具可能为模型提供了更清晰的依赖库文档或错误反馈模拟了真实程序员的调试过程
3.  **评估偏差的消除**旧框架可能对某些模型存在特定偏好而新的标准化工具能更客观地反映模型在特定工作流中的表现从而使测试分数发生变化

---



### 3: 文章中提到的“15 个 LLM”具体包括哪些模型?

3: 文章中提到的15  LLM具体包括哪些模型

**A**: 虽然具体的列表取决于文章发布时的测试范围但通常此类对比会涵盖当时主流的开源和闭源模型

典型的列表可能包括 GPT-4  GPT-3.5 Turbo作为闭源代表),以及 Llama 2Code LlamaMistralVicunaWizardCoder 等流行的开源模型文章的重点在于展示这种改进方法具有**普适性**即无论是专有模型还是开源模型其测试表现都会受到评估工具变更的影响

---



### 4: 这种“改变 Harness”的方法是否意味着模型变聪明了?

4: 这种改变 Harness的方法是否意味着模型变聪明了

**A**: **模型本身的参数或智力并没有发生变化**

这就像是一个学生参加考试如果试卷题目或评分标准发生变化学生的分数也会随之波动在这里学生LLM的知识储备是固定的但考试系统的调整导致了分数的差异因此这更多是关于**评估方法的变化**导致了测试结果的波动而不是模型训练层面的技术突破

---



### 5: 对于开发者来说,这篇文章的主要启示是什么?

5: 对于开发者来说这篇文章的主要启示是什么

**A**: 开发者不应仅依赖单一的基准测试分数而应关注如何构建更好的**开发工作流**

启示包括
1.  **提示词工程的重要性**如何向模型提问即如何设计测试用例的输入直接影响输出质量
2.  **迭代优化**通过构建一个能够自动测试并提供反馈的循环可以提高 AI 辅助编程的成功率
3.  **工具的选择**选择合适的评估工具或框架来筛选模型可能比单纯寻找最强的模型更有效有时候配合特定测试反馈循环的模型效果可能优于通用模型在特定环境下的表现

---



### 6: 这种方法在工业界的实际应用场景有哪些?

6: 这种方法在工业界的实际应用场景有哪些

**A**: 这种方法主要应用于**AI 辅助编程工具的开发****模型评估**

具体场景包括
1.  **CI/CD 集成**在软件开发流程中使用特定的测试工具来验证 AI 生成的代码确保其符合特定标准
2.  **模型评估与选择**企业在决定使用哪个 LLM 进行代码生成时可以使用改进后的评估框架来模拟业务场景从而选出更适合的模型
3.  **自动化代码审查**利用改进后的框架作为辅助工具自动审查 AI 生成的代码减少人工干预成本

---
## 思考题


### ## 挑战与思考题

### ### 挑战 1: 评估偏差

### 问题**:在提升 LLM 代码能力的过程中,为什么仅仅改变“测试框架”或“评估工具”就能带来显著的性能提升?请列举三个可能导致原有评估结果低于模型真实能力的具体原因。

### 提示**:思考模型输出与评估标准之间的接口匹配问题。考虑解析错误、格式严格度以及上下文截断等因素。如果一个模型生成了正确的代码但被判定为错误,问题通常出在哪里?

### 

---
## 引用

- **原文链接**: [http://blog.can.ac/2026/02/12/the-harness-problem](http://blog.can.ac/2026/02/12/the-harness-problem)
- **HN 讨论**: [https://news.ycombinator.com/item?id=46988596](https://news.ycombinator.com/item?id=46988596)

> 文中事实性信息以以上引用为准观点与推断为 AI Stack 的分析

---


---
## 站内链接

- 分类 [大模型](/categories/%E5%A4%A7%E6%A8%A1%E5%9E%8B/) / [AI 工程](/categories/ai-%E5%B7%A5%E7%A8%8B/)
- 标签 [LLM](/tags/llm/) / [代码生成](/tags/%E4%BB%A3%E7%A0%81%E7%94%9F%E6%88%90/) / [Harness](/tags/harness/) / [模型评估](/tags/%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0/) / [Benchmark](/tags/benchmark/) / [Prompt工程](/tags/prompt%E5%B7%A5%E7%A8%8B/) / [AI编程](/tags/ai%E7%BC%96%E7%A8%8B/) / [模型优化](/tags/%E6%A8%A1%E5%9E%8B%E4%BC%98%E5%8C%96/)
- 场景 [大语言模型](/scenarios/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/) / [AI/ML项目](/scenarios/ai-ml%E9%A1%B9%E7%9B%AE/)

### 相关文章

- [仅调整框架一下午提升15个大模型编程能力](/posts/20260212-hacker_news-improving-15-llms-at-coding-in-one-afternoon-only--8/)
- [仅修改框架一下午提升15个大模型代码能力](/posts/20260213-hacker_news-improving-15-llms-at-coding-in-one-afternoon-only--5/)
- [仅替换调度框架一下午提升15个大模型编程能力](/posts/20260212-hacker_news-improving-15-llms-at-coding-in-one-afternoon-only--4/)
- [仅调整框架一下午提升15个大模型编码能力](/posts/20260212-hacker_news-improving-15-llms-at-coding-in-one-afternoon-only--6/)
- [仅更换框架一下午提升15个大模型编程能力](/posts/20260212-hacker_news-improving-15-llms-at-coding-in-one-afternoon-only--7/)
*本文由 AI Stack 自动生成包含深度分析与可证伪的判断*