LINK_STATUS: STABLE // ENCODING: UTF-8

SECTOR_ID: AI_STACK // MODE: LIST

terminal

AI Stack

时间 --:--:--

安全连接 rss_feed

SYS_STABLE

目录

评估

条目：15

2026年二月 9 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	4min	mic SWE-bench Verified 数据泄露与缺陷分析：为何应转向 SWE-bench Pro 02-24 SWE-bench 数据泄露数据污染
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic 公布 METR 数据评估 Agent 自主能力 02-19 Anthropic METR Agent
[自动] [HACKER_NEWS]	5min	newspaper 评估 AGENTS.md 文档对编程 AI 智能体的实际效用 02-17 AI Agents AGENTS.md 编程助手
[自动] [HACKER_NEWS]	4min	newspaper 评估 AGENTS.md 文档对编程 AI 智能体的实际效用 02-17 AI Agents AGENTS.md 编程助手
[自动] [HACKER_NEWS]	7min	newspaper SkillsBench：评估智能体技能在多样化任务中的表现基准 02-17 SkillsBench 智能体 Agent
[自动] [HACKER_NEWS]	3min	newspaper 评估多语言上下文护栏：人道主义LLM用例 02-13 LLM 护栏多语言
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-12 智能体工具调用 OpenEnv
[自动] [HACKER_NEWS]	4min	newspaper BioTradingArena：用于评估LLM预测生物科技股票走势的基准 02-06 LLM 基准测试金融预测
[自动] [BLOGS_PODCASTS]	2min	mic 社区评估：以社区共识取代黑盒排行榜 02-05 社区评估排行榜黑盒

2026年一月 6 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper AGENTS.md 架构在智能体评估中超越 Skills 技能 01-30 智能体评估 AGENTS.md
[自动] [HACKER_NEWS]	5min	newspaper Agent评估显示AGENTS.md配置优于Skills 01-30 Agent 评估 AGENTS.md
[自动] [HACKER_NEWS]	5min	newspaper AGENTS.md 架构在智能体评估中优于 Skills 架构 01-30 智能体 Agent AGENTS.md
[自动] [HACKER_NEWS]	4min	newspaper Agent评估显示AGENTS.md配置优于Skills 01-30 Agent LLM AGENTS.md
[自动] [HACKER_NEWS]	5min	newspaper Agent评估显示AGENTS.md配置优于Skills 01-30 Agent AGENTS.md Skills
[自动] [HACKER_NEWS]	4min	newspaper AGENTS.md 架构在智能体评估中超越 Skills 技能 01-30 智能体 Agent 评估