目录
评估
条目:22
2026年三月
7 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
SWE-bench通过率存疑:多数通过测试的PR实际不会被合并 03-12
SWE-bench
代码生成
基准测试 |
[自动]
[HACKER_NEWS] | 1min | newspaper
SWE-bench基准测试:多数通过评估的PR实际无法合并 03-12
SWE-bench
基准测试
代码生成 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 效果优化:用户需先定义验收标准 03-07
LLM
效果优化
验收标准 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
NVIDIA NeMo Evaluator:分钟级评估对话式LLM的Agent技能 03-07
NVIDIA
NeMo
LLM |
[自动]
[ARXIV] | 3min | school
通过偏差界限评估实现可证无偏的LLM评判者 03-06
LLM
LLM-as-a-judge
评估 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
NVIDIA NeMo Evaluator Agent Skills:分钟级评估对话式LLM 03-06
NVIDIA
NeMo
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
METR Joel Becker谈指数级时间地平线评估与AI生产力边界 03-02
METR
Joel Becker
评估 |
2026年二月
9 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据泄露与缺陷分析:为何应转向 SWE-bench Pro 02-24
SWE-bench
数据泄露
数据污染 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 公布 METR 数据评估 Agent 自主能力 02-19
Anthropic
METR
Agent |
[自动]
[HACKER_NEWS] | 5min | newspaper
评估 AGENTS.md 文档对编程 AI 智能体的实际效用 02-17
AI Agents
AGENTS.md
编程助手 |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估 AGENTS.md 文档对编程 AI 智能体的实际效用 02-17
AI Agents
AGENTS.md
编程助手 |
[自动]
[HACKER_NEWS] | 7min | newspaper
SkillsBench:评估智能体技能在多样化任务中的表现基准 02-17
SkillsBench
智能体
Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
评估多语言上下文护栏:人道主义LLM用例 02-13
LLM
护栏
多语言 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
智能体
工具调用
OpenEnv |
[自动]
[HACKER_NEWS] | 4min | newspaper
BioTradingArena:用于评估LLM预测生物科技股票走势的基准 02-06
LLM
基准测试
金融预测 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
社区评估:以社区共识取代黑盒排行榜 02-05
社区评估
排行榜
黑盒 |
2026年一月
6 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
AGENTS.md 架构在智能体评估中超越 Skills 技能 01-30
智能体
评估
AGENTS.md |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent评估显示AGENTS.md配置优于Skills 01-30
Agent
评估
AGENTS.md |
[自动]
[HACKER_NEWS] | 5min | newspaper
AGENTS.md 架构在智能体评估中优于 Skills 架构 01-30
智能体
Agent
AGENTS.md |
[自动]
[HACKER_NEWS] | 4min | newspaper
Agent评估显示AGENTS.md配置优于Skills 01-30
Agent
LLM
AGENTS.md |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent评估显示AGENTS.md配置优于Skills 01-30
Agent
AGENTS.md
Skills |
[自动]
[HACKER_NEWS] | 4min | newspaper
AGENTS.md 架构在智能体评估中超越 Skills 技能 01-30
智能体
Agent
评估 |
无匹配条目