目录
AI评估
条目:8
2026年四月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
Sonnet 4.6错误率上升 04-08
Sonnet
错误率上升
大模型 |
2026年三月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
前沿AI评估:RCT与人类提升研究的方法挑战与解决方案 03-12
AI评估
RCT
因果推断 |
[自动]
[ARXIV] | 3min | school
评估大语言模型金融智能:SuperInvesting AI基准测试 03-11
LLM
金融智能
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
METR探讨指数级时间视界评估、威胁模型与AI生产力极限 03-03
METR
AI评估
威胁模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
METR探讨指数级时间视界评估、威胁模型与AI生产力边界 03-02
METR
AI评估
威胁模型 |
2026年二月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
METR探讨指数级时间跨度评估、威胁模型与AI生产力边界 02-28
METR
AI评估
威胁模型 |
[自动]
[ARXIV] | 3min | school
评估2025年中期LLM辅助对生物学初学者表现的影响 02-19
LLM
生物安全
AI评估 |
[自动]
[JUEJIN] | 3min | sticky_note_2
SkillsBench论文:评估Agent技能在多任务中的实际效用 02-17
Agent
LLM
SkillsBench |
无匹配条目