terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

LLM评估

共 10 篇

ASMR-Bench：机器学习研究破坏行为审计基准 2026-04-20 · ARXIV
SceneCritic：3D室内场景合成符号评估方法 2026-04-16 · ARXIV
CREATE基准测试：评估大模型联想创造力 2026-03-11 · ARXIV
评估大语言模型金融智能：SuperInvesting AI基准测试 2026-03-10 · ARXIV
DARE-bench：评估大模型数据科学建模与指令遵循能力 2026-03-02 · ARXIV
研究显示主流AI模型对弱势群体提供信息准确度较低 2026-02-20 · BLOGS_PODCASTS
MIT研究：主流AI模型向低教育及非美用户提供信息准确性更低 2026-02-20 · BLOGS_PODCASTS
亚马逊发布代理式AI评估框架：标准化工作流与专用指标库 2026-02-19 · BLOGS_PODCASTS
利用Game Arena平台推进AI基准测试 2026-02-03 · HACKER_NEWS
用Game Arena平台推进AI基准测试 2026-02-02 · HACKER_NEWS