terminal

AI Stack

rss_feed
SYS_STABLE
目录

LLM评估

条目:9
2026年四月 1 篇
类型阅读条目
[自动] [ARXIV]
2minschool SceneCritic:3D室内场景合成符号评估方法
04-16 3D场景合成 符号评估 SceneOnto
2026年三月 3 篇
类型阅读条目
[自动] [ARXIV]
2minschool CREATE基准测试:评估大模型联想创造力
03-11 CREATE 联想创造力 基准测试
[自动] [ARXIV]
3minschool 评估大语言模型金融智能:SuperInvesting AI基准测试
03-10 金融智能 基准测试 SuperInvesting
[自动] [ARXIV]
4minschool DARE-bench:评估大模型数据科学建模与指令遵循能力
03-02 DARE-bench LLM评估 数据科学
2026年二月 5 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型对弱势群体提供信息准确度较低
02-20 AI偏见 公平性 包容性
[自动] [BLOGS_PODCASTS]
2minmic MIT研究:主流AI模型向低教育及非美用户提供信息准确性更低
02-20 MIT研究 AI偏见 数字鸿沟
[自动] [BLOGS_PODCASTS]
3minmic 亚马逊发布代理式AI评估框架:标准化工作流与专用指标库
02-19 AI Agent 评估框架 Amazon Bedrock
[自动] [HACKER_NEWS]
5minnewspaper 利用Game Arena平台推进AI基准测试
02-03 AI基准测试 Game Arena LLM评估
[自动] [HACKER_NEWS]
4minnewspaper 用Game Arena平台推进AI基准测试
02-02 AI基准测试 Game Arena LLM评估