terminal

AI Stack

rss_feed
SYS_STABLE
目录

AI评测

条目:5
2026年二月 3 篇
类型阅读条目
[自动] [HACKER_NEWS]
6minnewspaper PA基准:评估Web智能体在真实个人助理工作流中的表现
02-26 Web智能体 PA基准 个人助理
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 发布 METR 数据集研究 AI Agent 自主性
02-19 Anthropic METR AI Agent
[自动] [HACKER_NEWS]
3minnewspaper GPT-5在法律推理实验中表现优于联邦法官
02-12 GPT-5 法律推理 联邦法官
2026年一月 2 篇
类型阅读条目
[自动] [HACKER_NEWS]
7minnewspaper OTelBench评测:Opus 4.5在简单SRE任务中得分仅29%
01-29 Opus 4.5 OTelBench SRE
[自动] [HACKER_NEWS]
7minnewspaper OTelBench评测:Opus 4.5在简单SRE任务中得分仅29%
01-29 LLM SRE Opus 4.5