terminal

AI Stack

rss_feed
SYS_STABLE
目录

评估基准

条目:8
2026年三月 6 篇
类型阅读条目
[自动] [ARXIV]
2minschool ConGA框架:机器翻译性别标注指南
03-20 机器翻译 性别偏见 ConGA
[自动] [HACKER_NEWS]
1minnewspaper SWE-CI:基于CI流程评估AI Agent代码库维护能力
03-08 SWE-CI AI Agent CI/CD
[自动] [HACKER_NEWS]
1minnewspaper SWE-CI:评估 AI 智能体通过 CI 维护代码库的能力
03-08 SWE-CI AI 智能体 CI/CD
[自动] [ARXIV]
3minschool τ-Knowledge:评估非结构化知识下的对话智能体
03-06 对话智能体 评估基准 非结构化知识
[自动] [ARXIV]
3minschool τ-Knowledge:评估非结构化知识中的对话智能体
03-05 Agent RAG 评估基准
[自动] [ARXIV]
3minschool 过程感知评估揭示大模型智能体中的虚假成功
03-04 LLM Agents 评估基准 流程感知
2026年二月 2 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic IBM与UC伯克利利用IT-Bench和MAST诊断企业智能体失败原因
02-19 IBM UC Berkeley IT-Bench
[自动] [ARXIV]
3minschool 恶意提示词分类器在真实分布偏移下的评估方法
02-17 LLM安全 提示词注入 越狱攻击