terminal

AI Stack

rss_feed
SYS_STABLE
目录

评估

条目:15
2026年二月 9 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
4minmic SWE-bench Verified 数据泄露与缺陷分析:为何应转向 SWE-bench Pro
02-24 SWE-bench 数据泄露 数据污染
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 公布 METR 数据评估 Agent 自主能力
02-19 Anthropic METR Agent
[自动] [HACKER_NEWS]
5minnewspaper 评估 AGENTS.md 文档对编程 AI 智能体的实际效用
02-17 AI Agents AGENTS.md 编程助手
[自动] [HACKER_NEWS]
4minnewspaper 评估 AGENTS.md 文档对编程 AI 智能体的实际效用
02-17 AI Agents AGENTS.md 编程助手
[自动] [HACKER_NEWS]
7minnewspaper SkillsBench:评估智能体技能在多样化任务中的表现基准
02-17 SkillsBench 智能体 Agent
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义LLM用例
02-13 LLM 护栏 多语言
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 智能体 工具调用 OpenEnv
[自动] [HACKER_NEWS]
4minnewspaper BioTradingArena:用于评估LLM预测生物科技股票走势的基准
02-06 LLM 基准测试 金融预测
[自动] [BLOGS_PODCASTS]
2minmic 社区评估:以社区共识取代黑盒排行榜
02-05 社区评估 排行榜 黑盒
2026年一月 6 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper AGENTS.md 架构在智能体评估中超越 Skills 技能
01-30 智能体 评估 AGENTS.md
[自动] [HACKER_NEWS]
5minnewspaper Agent评估显示AGENTS.md配置优于Skills
01-30 Agent 评估 AGENTS.md
[自动] [HACKER_NEWS]
5minnewspaper AGENTS.md 架构在智能体评估中优于 Skills 架构
01-30 智能体 Agent AGENTS.md
[自动] [HACKER_NEWS]
4minnewspaper Agent评估显示AGENTS.md配置优于Skills
01-30 Agent LLM AGENTS.md
[自动] [HACKER_NEWS]
5minnewspaper Agent评估显示AGENTS.md配置优于Skills
01-30 Agent AGENTS.md Skills
[自动] [HACKER_NEWS]
4minnewspaper AGENTS.md 架构在智能体评估中超越 Skills 技能
01-30 智能体 Agent 评估