terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

评估

共 24 篇

LeRobot v0.6.0发布：新增想象、评估、改进功能 2026-07-07 · BLOGS_PODCASTS
LeRobot v0.6.0：想象、评估、改进 2026-07-06 · BLOGS_PODCASTS
SWE-bench通过率存疑：多数通过测试的PR实际不会被合并 2026-03-12 · HACKER_NEWS
SWE-bench基准测试：多数通过评估的PR实际无法合并 2026-03-12 · HACKER_NEWS
LLM 效果优化：用户需先定义验收标准 2026-03-07 · HACKER_NEWS
NVIDIA NeMo Evaluator：分钟级评估对话式LLM的Agent技能 2026-03-07 · BLOGS_PODCASTS
通过偏差界限评估实现可证无偏的LLM评判者 2026-03-06 · ARXIV
NVIDIA NeMo Evaluator Agent Skills：分钟级评估对话式LLM 2026-03-06 · BLOGS_PODCASTS
METR Joel Becker谈指数级时间地平线评估与AI生产力边界 2026-03-02 · BLOGS_PODCASTS
SWE-bench Verified 数据泄露与缺陷分析：为何应转向 SWE-bench Pro 2026-02-24 · BLOGS_PODCASTS
Anthropic 公布 METR 数据评估 Agent 自主能力 2026-02-19 · BLOGS_PODCASTS
评估 AGENTS.md 文档对编程 AI 智能体的实际效用 2026-02-17 · HACKER_NEWS
评估 AGENTS.md 文档对编程 AI 智能体的实际效用 2026-02-17 · HACKER_NEWS
SkillsBench：评估智能体技能在多样化任务中的表现基准 2026-02-17 · HACKER_NEWS
评估多语言上下文护栏：人道主义LLM用例 2026-02-13 · HACKER_NEWS
OpenEnv实践：评估真实环境中的工具调用智能体 2026-02-12 · BLOGS_PODCASTS
BioTradingArena：用于评估LLM预测生物科技股票走势的基准 2026-02-06 · HACKER_NEWS
社区评估：以社区共识取代黑盒排行榜 2026-02-05 · BLOGS_PODCASTS
AGENTS.md 架构在智能体评估中超越 Skills 技能 2026-01-30 · HACKER_NEWS
Agent评估显示AGENTS.md配置优于Skills 2026-01-30 · HACKER_NEWS
AGENTS.md 架构在智能体评估中优于 Skills 架构 2026-01-30 · HACKER_NEWS
Agent评估显示AGENTS.md配置优于Skills 2026-01-30 · HACKER_NEWS
Agent评估显示AGENTS.md配置优于Skills 2026-01-30 · HACKER_NEWS
AGENTS.md 架构在智能体评估中超越 Skills 技能 2026-01-30 · HACKER_NEWS