terminal

AI Stack

rss_feed
SYS_STABLE
目录

评估方法

条目:7
2026年三月 1 篇
类型阅读条目
[自动] [ARXIV]
3minschool 通过偏差有界评估实现可证明无偏的LLM评判者
03-09 LLM-as-a-Judge 评估方法 偏差控制
2026年二月 4 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper AI智能体自主性水平的实践评估方法
02-20 AI Agent 自主性 评估方法
[自动] [HACKER_NEWS]
1minnewspaper AI智能体自主性评估的实践方法
02-19 AI Agent 自主性 评估方法
[自动] [HACKER_NEWS]
1minnewspaper AI智能体自主性的实践评估方法
02-19 AI Agent 自主性 评估方法
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准
02-02 UEval 多模态 基准测试
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准
01-31 多模态 UEval 基准测试
[自动] [ARXIV]
3minschool UEval:统一多模态生成基准
01-30 UEval 多模态 统一模型