目录
评估
条目:15
2026年二月
9 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 4min | mic
SWE-bench Verified 数据泄露与缺陷分析:为何应转向 SWE-bench Pro 02-24
SWE-bench
数据泄露
数据污染 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 公布 METR 数据评估 Agent 自主能力 02-19
Anthropic
METR
Agent |
[自动]
[HACKER_NEWS] | 5min | newspaper
评估 AGENTS.md 文档对编程 AI 智能体的实际效用 02-17
AI Agents
AGENTS.md
编程助手 |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估 AGENTS.md 文档对编程 AI 智能体的实际效用 02-17
AI Agents
AGENTS.md
编程助手 |
[自动]
[HACKER_NEWS] | 7min | newspaper
SkillsBench:评估智能体技能在多样化任务中的表现基准 02-17
SkillsBench
智能体
Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
评估多语言上下文护栏:人道主义LLM用例 02-13
LLM
护栏
多语言 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
智能体
工具调用
OpenEnv |
[自动]
[HACKER_NEWS] | 4min | newspaper
BioTradingArena:用于评估LLM预测生物科技股票走势的基准 02-06
LLM
基准测试
金融预测 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
社区评估:以社区共识取代黑盒排行榜 02-05
社区评估
排行榜
黑盒 |
2026年一月
6 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
AGENTS.md 架构在智能体评估中超越 Skills 技能 01-30
智能体
评估
AGENTS.md |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent评估显示AGENTS.md配置优于Skills 01-30
Agent
评估
AGENTS.md |
[自动]
[HACKER_NEWS] | 5min | newspaper
AGENTS.md 架构在智能体评估中优于 Skills 架构 01-30
智能体
Agent
AGENTS.md |
[自动]
[HACKER_NEWS] | 4min | newspaper
Agent评估显示AGENTS.md配置优于Skills 01-30
Agent
LLM
AGENTS.md |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent评估显示AGENTS.md配置优于Skills 01-30
Agent
AGENTS.md
Skills |
[自动]
[HACKER_NEWS] | 4min | newspaper
AGENTS.md 架构在智能体评估中超越 Skills 技能 01-30
智能体
Agent
评估 |
无匹配条目