目录
AI 评测
条目:3
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
展示 LLM 表现不佳的 1v1 编程游戏 03-07
LLM
编程游戏
代码对战 |
2026年二月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent Skills:大模型智能体的技能评估框架 02-03
Agent
LLM
评估框架 |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 7min | newspaper
OTelBench基准测试:Opus 4.5在简单SRE任务中得分仅29% 01-29
LLM
SRE
基准测试 |
无匹配条目