目录
LLM评估
条目:9
2026年四月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 2min | school
SceneCritic:3D室内场景合成符号评估方法 04-16
3D场景合成
符号评估
SceneOnto |
2026年三月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 2min | school
CREATE基准测试:评估大模型联想创造力 03-11
CREATE
联想创造力
基准测试 |
[自动]
[ARXIV] | 3min | school
评估大语言模型金融智能:SuperInvesting AI基准测试 03-10
金融智能
基准测试
SuperInvesting |
[自动]
[ARXIV] | 4min | school
DARE-bench:评估大模型数据科学建模与指令遵循能力 03-02
DARE-bench
LLM评估
数据科学 |
2026年二月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
研究显示主流AI模型对弱势群体提供信息准确度较低 02-20
AI偏见
公平性
包容性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT研究:主流AI模型向低教育及非美用户提供信息准确性更低 02-20
MIT研究
AI偏见
数字鸿沟 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊发布代理式AI评估框架:标准化工作流与专用指标库 02-19
AI Agent
评估框架
Amazon Bedrock |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用Game Arena平台推进AI基准测试 02-03
AI基准测试
Game Arena
LLM评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
用Game Arena平台推进AI基准测试 02-02
AI基准测试
Game Arena
LLM评估 |
无匹配条目