terminal

AI Stack

rss_feed
SYS_STABLE
目录

LLM评测

条目:5
2026年四月 1 篇
类型阅读条目
[自动] [ARXIV]
1minschool MathNet:多模态数学推理与检索基准
04-22 数学推理 多模态基准 检索增强
2026年三月 2 篇
类型阅读条目
[自动] [ARXIV]
2minschool LLM评测新范式:从表面启发式到知识 grounded 评估
03-13 LLM评测 LLM-as-a-Judge 评估幻觉
[自动] [ARXIV]
3minschool LLM评测新范式:从表面启发式到知识 grounded 评估
03-12 LLM评测 LLM-as-a-Judge MERG框架
2026年二月 1 篇
类型阅读条目
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准评测
02-01 UEval 多模态 基准评测
2026年一月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic 阿联酋方言评测新突破!Alyah让阿拉伯语大模型更鲁棒🚀
01-27 Alyah 阿拉伯语 方言评测