AI 评测

条目：2

2026年二月 1 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	6min	newspaper Agent Skills：大模型智能体的技能评估框架 02-03 Agent LLM 评估框架

2026年一月 1 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	7min	newspaper OTelBench基准测试：Opus 4.5在简单SRE任务中得分仅29% 01-29 LLM SRE 基准测试