terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

LLM评测

共 5 篇

MathNet：多模态数学推理与检索基准 2026-04-22 · ARXIV
LLM评测新范式：从表面启发式到知识 grounded 评估 2026-03-13 · ARXIV
LLM评测新范式：从表面启发式到知识 grounded 评估 2026-03-12 · ARXIV
UEval：统一多模态生成基准评测 2026-02-01 · ARXIV
阿联酋方言评测新突破！Alyah让阿拉伯语大模型更鲁棒🚀 2026-01-27 · BLOGS_PODCASTS