目录
AI评测
条目:5
2026年二月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 6min | newspaper
PA基准:评估Web智能体在真实个人助理工作流中的表现 02-26
Web智能体
PA基准
个人助理 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 发布 METR 数据集研究 AI Agent 自主性 02-19
Anthropic
METR
AI Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
GPT-5在法律推理实验中表现优于联邦法官 02-12
GPT-5
法律推理
联邦法官 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 7min | newspaper
OTelBench评测:Opus 4.5在简单SRE任务中得分仅29% 01-29
Opus 4.5
OTelBench
SRE |
[自动]
[HACKER_NEWS] | 7min | newspaper
OTelBench评测:Opus 4.5在简单SRE任务中得分仅29% 01-29
LLM
SRE
Opus 4.5 |
无匹配条目