目录
评估基准
条目:8
2026年三月
6 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 2min | school
ConGA框架:机器翻译性别标注指南 03-20
机器翻译
性别偏见
ConGA |
[自动]
[HACKER_NEWS] | 1min | newspaper
SWE-CI:基于CI流程评估AI Agent代码库维护能力 03-08
SWE-CI
AI Agent
CI/CD |
[自动]
[HACKER_NEWS] | 1min | newspaper
SWE-CI:评估 AI 智能体通过 CI 维护代码库的能力 03-08
SWE-CI
AI 智能体
CI/CD |
[自动]
[ARXIV] | 3min | school
τ-Knowledge:评估非结构化知识下的对话智能体 03-06
对话智能体
评估基准
非结构化知识 |
[自动]
[ARXIV] | 3min | school
τ-Knowledge:评估非结构化知识中的对话智能体 03-05
Agent
RAG
评估基准 |
[自动]
[ARXIV] | 3min | school
过程感知评估揭示大模型智能体中的虚假成功 03-04
LLM Agents
评估基准
流程感知 |
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
IBM与UC伯克利利用IT-Bench和MAST诊断企业智能体失败原因 02-19
IBM
UC Berkeley
IT-Bench |
[自动]
[ARXIV] | 3min | school
恶意提示词分类器在真实分布偏移下的评估方法 02-17
LLM安全
提示词注入
越狱攻击 |
无匹配条目