terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型评估

条目:120
2026年三月 2 篇
类型阅读条目
[自动] [ARXIV]
3minschool 规模难以克服语用学:报道偏差对视觉语言推理的影响
03-01 VLM 视觉语言模型 报告偏差
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
03-01 Anthropic 模型蒸馏 SWE-Bench
2026年二月 104 篇
类型阅读条目
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
02-28 VLM 视觉语言模型 报告偏差
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-28 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [ARXIV]
3minschool 数据集压缩至1MB:小规模数据集的模型训练效果评估
02-27 PLADA 数据集压缩 伪标签
[自动] [BLOGS_PODCASTS]
2minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
2minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 宪法AI
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [ARXIV]
4minschool 高效自动化翻译基准测试与数据集的流水线
02-26 LLM 多语言模型 数据集
[自动] [HACKER_NEWS]
4minnewspaper 首个完全通用的计算机动作模型
02-26 Agent LLM 计算机控制
[自动] [HACKER_NEWS]
4minnewspaper PA Bench:评估前沿模型多标签页任务能力
02-25 PA Bench 多标签页 模型评估
[自动] [BLOGS_PODCASTS]
3minmic 数十场中型发布会背后的共同主题:形成闭环
02-25 闭环 数据飞轮 合成数据
[自动] [BLOGS_PODCASTS]
3minmic OpenAI前沿评估负责人探讨SWE-Bench Verified后的下一步
02-25 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]
4minmic OpenAI前沿评估负责人:SWE-Bench Verified后的智能体评测新方向
02-25 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]
3minmic OpenAI前沿评估团队:SWE-Bench Verified后的智能体评估新方向
02-25 OpenAI SWE-Bench 智能体
[自动] [ARXIV]
4minschool KNIGHT:知识图谱驱动的多选题生成与自适应难度校准
02-25 LLM RAG 知识图谱
[自动] [ARXIV]
4minschool 面向大规模视频推理的综合基准测试套件
02-24 视频推理 VBVR 基准测试
[自动] [ARXIV]
4minschool Skill-Inject:评估智能体技能文件攻击漏洞
02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 前沿评估团队探讨迈向智能体评估的下一阶段
02-24 OpenAI SWE-Bench 智能体评估
[自动] [HACKER_NEWS]
5minnewspaper Hugging Face Skills 功能上线与模型评估体系更新
02-24 Hugging Face 模型评估 LLM
[自动] [BLOGS_PODCASTS]
2minmic OpenAI前沿评估团队:从SWE-Bench Verified看智能体评估演进
02-24 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 存在数据污染与评估偏差,建议改用 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据污染与测度失准分析及替代方案
02-24 SWE-bench 数据污染 代码生成
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 前沿评估团队:SWE-Bench Verified 之后的下一步
02-24 OpenAI SWE-Bench 智能体
[自动] [HACKER_NEWS]
4minnewspaper 53款模型“洗车”测试
02-24 模型评估 基准测试 LLM
[自动] [JUEJIN]
2minsticky_note_2 DeepMind研究:多智能体协作瓶颈与Agent能力天花板分析
02-24 DeepMind 多智能体 Agent
[自动] [HACKER_NEWS]
3minnewspaper 53款模型“洗车”测试:评估多模态AI在物理场景中的表现
02-24 多模态 物理场景 模型评估
[自动] [HACKER_NEWS]
3minnewspaper 53款模型“洗车”测试:评估代码生成与修复能力
02-24 代码生成 模型评估 Bug修复
[自动] [HACKER_NEWS]
4minnewspaper 53款模型“洗车”测试:评估大模型代码生成鲁棒性
02-24 代码生成 鲁棒性 模型评估
[自动] [BLOGS_PODCASTS]
2minmic 分享AI模型在First Proof数学挑战中的证明尝试
02-24 First Proof 数学证明 AI推理
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄露与测试缺陷分析:为何应迁移至 SWE-bench Pro
02-24 SWE-bench 数据泄露 基准测试
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 推进智能体评估:SWE-Bench Verified 后续方向
02-24 OpenAI SWE-Bench 智能体评估
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型向弱势用户提供的信息准确度较低
02-23 AI偏见 数字鸿沟 模型评估
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄漏与测试缺陷分析:为何推荐改用 SWE-bench Pro
02-23 SWE-bench 数据泄漏 基准测试
[自动] [BLOGS_PODCASTS]
3minmic OpenAI提出SWE-Bench-Dead:智能体前沿评估的下一步
02-23 OpenAI SWE-Bench Agent
[自动] [HACKER_NEWS]
4minnewspaper 53 款模型参与“洗车”基准测试
02-23 基准测试 模型评估 LLM
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 数据污染严重,推荐使用 SWE-bench Pro
02-23 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 分享AI模型针对First Proof数学挑战的证明尝试
02-23 数学推理 First Proof 专家级问题
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法揭示大模型隐藏偏差并提升安全性
02-23 MIT LLM 模型安全
[自动] [HACKER_NEWS]
4minnewspaper 大语言模型推理失败机制分析
02-21 LLM 推理 逻辑错误
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 发布自主智能体 METR 基准测试数据
02-20 Anthropic 智能体 Agent
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型向弱势用户提供的信息准确度较低
02-20 AI偏见 模型评估 用户体验
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 公布 Agent 自主性研究及 METR 基准数据
02-20 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布自主Agent研究:基于METR数据评估模型自主能力
02-20 Anthropic 自主Agent METR
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 发布自主智能体 METR 基准测试数据
02-20 Anthropic METR 自主智能体
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大语言模型安全性
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布基于METR数据的Agent自主性研究
02-20 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-19 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [ARXIV]
3minschool 长上下文LLM缩放缺陷:隐私与个性化任务揭示注意力分散
02-18 长上下文 LLM 个性化
[自动] [ARXIV]
3minschool 长上下文LLM隐私与个性化任务中的缩放差距研究
02-17 长上下文 隐私保护 个性化
[自动] [ARXIV]
3minschool 超越掩码扩散语言模型的扩展性研究
02-17 扩散模型 语言模型 扩展定律
[自动] [HACKER_NEWS]
4minnewspaper 语义消融实验:揭示AI写作为何平庸同质化
02-17 语义消融 AI写作 同质化
[自动] [ARXIV]
4minschool 科学推理模型引入拒答机制以提升准确性
02-17 科学推理 拒答机制 NLI
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的智能体技能通常无效
02-17 AI Agent 智能体 LLM
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的Agent技能实际无效
02-17 Agent LLM 研究
[自动] [HACKER_NEWS]
3minnewspaper 研究:自生成的Agent技能通常无效
02-16 Agent LLM 自生成技能
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的Agent技能通常无效
02-16 Agent LLM 自生成技能
[自动] [HACKER_NEWS]
3minnewspaper 小实验室在音频领域取得领先优势
02-16 音频生成 小实验室 AI 竞争
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实践:评估真实环境中的工具调用智能体
02-13 智能体 工具调用 OpenEnv
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实战:评估真实环境中的工具调用智能体
02-13 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
6minnewspaper 仅改用Harness框架即可提升15个大模型编程能力
02-13 LLM 代码生成 Harness
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实战:评估真实环境中的工具调用智能体
02-13 智能体 工具调用 OpenEnv
[自动] [HACKER_NEWS]
7minnewspaper 仅更换框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 模型评估
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义大模型应用
02-13 LLM 护栏 多语言
[自动] [HACKER_NEWS]
7minnewspaper 仅调整框架,一下午提升15个大模型编程能力
02-13 LLM 代码生成 模型评估
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客
[自动] [HACKER_NEWS]
4minnewspaper 仅修改框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 框架优化
[自动] [HACKER_NEWS]
4minnewspaper 仅更换框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 框架对比
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实践:在真实环境中评估工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
4minnewspaper 仅调整框架一下午提升15个大模型编程能力
02-12 LLM 代码生成 模型评估
[自动] [HACKER_NEWS]
4minnewspaper 仅调整框架,一下午提升15个大模型编码能力
02-12 LLM 代码生成 Prompt Engineering
[自动] [HACKER_NEWS]
4minnewspaper 仅替换调度框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
6minnewspaper 仅更换框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 框架对比
[自动] [BLOGS_PODCASTS]
3minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
5minnewspaper 仅更换调度框架,一下午提升15个大模型代码能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
3minnewspaper 大语言模型面临的幻觉与逻辑推理局限
02-12 LLM 幻觉 逻辑推理
[自动] [HACKER_NEWS]
4minnewspaper 大语言模型在逻辑推理与事实准确性上的局限
02-12 LLM 逻辑推理 事实准确性
[自动] [ARXIV]
3minschool LLM盲区偏差检测:识别模型未提及内容
02-11 LLM 偏见检测 模型评估
[自动] [HACKER_NEWS]
3minnewspaper GLM-OCR: Accurate × Fast × Comprehensive
02-11 GLM-OCR OCR 多模态
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:兼顾准确度、速度与通用性的多模态大模型
02-11 GLM-OCR 多模态 OCR
[自动] [ARXIV]
3minschool 智能体不确定性研究揭示过度自信问题
02-09 AI Agents 不确定性 过度自信
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习比预期更难
02-07 LLM ICL 上下文学习
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习的难度超出预期
02-07 上下文学习 ICL LLM
[自动] [HACKER_NEWS]
4minnewspaper 从上下文学习的难度超出预期
02-07 上下文学习 ICL LLM
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习比预期更具挑战性
02-06 LLM ICL 上下文学习
[自动] [HACKER_NEWS]
3minnewspaper 上下文学习难度超出原有认知
02-06 上下文学习 ICL 大模型
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习比预期更难
02-06 LLM 上下文学习 ICL
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习的难度超出原有认知
02-06 上下文学习 ICL LLM
[自动] [BLOGS_PODCASTS]
3minmic GPT-5.3-Codex:结合前沿编码性能与推理能力的代理式模型
02-05 GPT-5.3 Codex Agent
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、算力与中国角色
02-04 LLM 智能体 AI 编程
[自动] [HACKER_NEWS]
4minnewspaper 构建AI版Wattpad以评估大模型小说创作能力
02-03 LLM 小说创作 模型评估
[自动] [HACKER_NEWS]
3minnewspaper 模型对齐偏差如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型智能与任务复杂度如何影响对齐偏差
02-03 对齐 模型智能 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型对齐问题如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper AI 基准测试新进展:Game Arena 推进评估方法
02-03 AI 基准测试 Game Arena 模型评估
[自动] [ARXIV]
3minschool 发现模型仓库中的隐藏价值
02-02 模型评估 Llama-3.1 多臂老虎机
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-01 Agent RLHF 奖励模型
[自动] [ARXIV]
3minschool 挖掘模型仓库中的隐藏价值
02-01 模型评估 Llama 微调
2026年一月 14 篇
类型阅读条目
[自动] [ARXIV]
4minschool 发现模型仓库中的隐藏价值
01-31 模型评估 Llama 多臂老虎机
[自动] [ARXIV]
3minschool 发现模型仓库中被忽视的高质量模型
01-30 模型评估 Llama-3.1 微调
[自动] [HACKER_NEWS]
7minnewspaper 月之暗面发布Kimi K2.5技术报告
01-30 Kimi K2.5 月之暗面
[自动] [HACKER_NEWS]
5minnewspaper Agent评估显示AGENTS.md配置优于技能配置
01-30 Agent AGENTS.md 技能配置
[自动] [ARXIV]
4minschool 基于认知上下文学习构建大模型多智能体系统的信任机制
01-30 多智能体 信任机制 ECL
[自动] [ARXIV]
4minschool 机器翻译评估中的跨向污染问题研究
01-30 机器翻译 数据污染 FLORES-200
[自动] [ARXIV]
4minschool SokoBench:评估大模型长周期规划与推理能力
01-30 SokoBench 长周期规划 推理能力
[自动] [ARXIV]
4minschool SokoBench:评估大模型长程规划与推理能力
01-29 SokoBench 长程规划 推理能力
[自动] [HACKER_NEWS]
6minnewspaper Opus 4.5 在 OTelBench 基准测试中得分仅 29%
01-29 Opus 4.5 OTelBench SRE
[自动] [BLOGS_PODCASTS]
2minmic Alyah:评估阿拉伯语大模型阿联酋方言能力
01-29 LLM 模型评估 阿拉伯语
[自动] [BLOGS_PODCASTS]
2minmic Alyah ⭐️:阿拉伯语LLM方言鲁棒性评估!🔥
01-28 LLM 阿拉伯语 方言评估
[自动] [BLOGS_PODCASTS]
3minmic 🇦🇪 Alyah ⭐️:揭秘阿拉伯LLM方言鲁棒评估!
01-28 LLM 阿拉伯语 方言评估
[自动] [ARXIV]
4minschool MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥
01-27 LLM 模型评估 安全对齐
[自动] [HACKER_NEWS]
4minnewspaper ⚡️俄罗斯方块爆杀Opus!Gemini Flash胜率66%震撼实测🎮
01-27 LLM Gemini Flash Claude Opus