terminal

AI Stack

rss_feed
SYS_STABLE
目录

评估

条目:22
2026年三月 7 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper SWE-bench通过率存疑:多数通过测试的PR实际不会被合并
03-12 SWE-bench 代码生成 基准测试
[自动] [HACKER_NEWS]
1minnewspaper SWE-bench基准测试:多数通过评估的PR实际无法合并
03-12 SWE-bench 基准测试 代码生成
[自动] [HACKER_NEWS]
1minnewspaper LLM 效果优化:用户需先定义验收标准
03-07 LLM 效果优化 验收标准
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA NeMo Evaluator:分钟级评估对话式LLM的Agent技能
03-07 NVIDIA NeMo LLM
[自动] [ARXIV]
3minschool 通过偏差界限评估实现可证无偏的LLM评判者
03-06 LLM LLM-as-a-judge 评估
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA NeMo Evaluator Agent Skills:分钟级评估对话式LLM
03-06 NVIDIA NeMo LLM
[自动] [BLOGS_PODCASTS]
2minmic METR Joel Becker谈指数级时间地平线评估与AI生产力边界
03-02 METR Joel Becker 评估
2026年二月 9 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄露与缺陷分析:为何应转向 SWE-bench Pro
02-24 SWE-bench 数据泄露 数据污染
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 公布 METR 数据评估 Agent 自主能力
02-19 Anthropic METR Agent
[自动] [HACKER_NEWS]
5minnewspaper 评估 AGENTS.md 文档对编程 AI 智能体的实际效用
02-17 AI Agents AGENTS.md 编程助手
[自动] [HACKER_NEWS]
4minnewspaper 评估 AGENTS.md 文档对编程 AI 智能体的实际效用
02-17 AI Agents AGENTS.md 编程助手
[自动] [HACKER_NEWS]
7minnewspaper SkillsBench:评估智能体技能在多样化任务中的表现基准
02-17 SkillsBench 智能体 Agent
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义LLM用例
02-13 LLM 护栏 多语言
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 智能体 工具调用 OpenEnv
[自动] [HACKER_NEWS]
4minnewspaper BioTradingArena:用于评估LLM预测生物科技股票走势的基准
02-06 LLM 基准测试 金融预测
[自动] [BLOGS_PODCASTS]
2minmic 社区评估:以社区共识取代黑盒排行榜
02-05 社区评估 排行榜 黑盒
2026年一月 6 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper AGENTS.md 架构在智能体评估中超越 Skills 技能
01-30 智能体 评估 AGENTS.md
[自动] [HACKER_NEWS]
5minnewspaper Agent评估显示AGENTS.md配置优于Skills
01-30 Agent 评估 AGENTS.md
[自动] [HACKER_NEWS]
5minnewspaper AGENTS.md 架构在智能体评估中优于 Skills 架构
01-30 智能体 Agent AGENTS.md
[自动] [HACKER_NEWS]
4minnewspaper Agent评估显示AGENTS.md配置优于Skills
01-30 Agent LLM AGENTS.md
[自动] [HACKER_NEWS]
5minnewspaper Agent评估显示AGENTS.md配置优于Skills
01-30 Agent AGENTS.md Skills
[自动] [HACKER_NEWS]
4minnewspaper AGENTS.md 架构在智能体评估中超越 Skills 技能
01-30 智能体 Agent 评估