terminal

AI Stack

rss_feed
SYS_STABLE
目录

AI评估

条目:8
2026年四月 1 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper Sonnet 4.6错误率上升
04-08 Sonnet 错误率上升 大模型
2026年三月 4 篇
类型阅读条目
[自动] [ARXIV]
3minschool 前沿AI评估:RCT与人类提升研究的方法挑战与解决方案
03-12 AI评估 RCT 因果推断
[自动] [ARXIV]
3minschool 评估大语言模型金融智能:SuperInvesting AI基准测试
03-11 LLM 金融智能 基准测试
[自动] [BLOGS_PODCASTS]
3minmic METR探讨指数级时间视界评估、威胁模型与AI生产力极限
03-03 METR AI评估 威胁模型
[自动] [BLOGS_PODCASTS]
2minmic METR探讨指数级时间视界评估、威胁模型与AI生产力边界
03-02 METR AI评估 威胁模型
2026年二月 3 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic METR探讨指数级时间跨度评估、威胁模型与AI生产力边界
02-28 METR AI评估 威胁模型
[自动] [ARXIV]
3minschool 评估2025年中期LLM辅助对生物学初学者表现的影响
02-19 LLM 生物安全 AI评估
[自动] [JUEJIN]
3minsticky_note_2 SkillsBench论文:评估Agent技能在多任务中的实际效用
02-17 Agent LLM SkillsBench