terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

评估基准

共 11 篇

VendingBench作者访谈：Claude系列模型评估体系构建实践 2026-06-05 · BLOGS_PODCASTS
ChartNet数据集提升视觉语言模型图表解读能力 2026-06-03 · BLOGS_PODCASTS
EntityBench：长视频多镜头实体一致性评估 2026-05-17 · ARXIV
ConGA框架：机器翻译性别标注指南 2026-03-20 · ARXIV
SWE-CI：基于CI流程评估AI Agent代码库维护能力 2026-03-08 · HACKER_NEWS
SWE-CI：评估 AI 智能体通过 CI 维护代码库的能力 2026-03-08 · HACKER_NEWS
τ-Knowledge：评估非结构化知识下的对话智能体 2026-03-06 · ARXIV
τ-Knowledge：评估非结构化知识中的对话智能体 2026-03-05 · ARXIV
过程感知评估揭示大模型智能体中的虚假成功 2026-03-04 · ARXIV
IBM与UC伯克利利用IT-Bench和MAST诊断企业智能体失败原因 2026-02-19 · BLOGS_PODCASTS
恶意提示词分类器在真实分布偏移下的评估方法 2026-02-17 · ARXIV