模型评估

条目：120

2026年三月 2 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school 规模难以克服语用学：报道偏差对视觉语言推理的影响 03-01 VLM 视觉语言模型报告偏差
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01 Anthropic 模型蒸馏 SWE-Bench

2026年二月 104 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school 规模难以克服语用学：报告偏差对视觉语言推理的影响 02-28 VLM 视觉语言模型报告偏差
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-28 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic模型蒸馏与SWE-Bench失效机制分析 02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [ARXIV]	3min	school 数据集压缩至1MB：小规模数据集的模型训练效果评估 02-27 PLADA 数据集压缩伪标签
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic蒸馏与模型作弊机制：SWE-Bench失效分析 02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic蒸馏与模型作弊机制：SWE-Bench失效分析 02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic蒸馏与模型作弊机制：SWE-Bench失效分析 02-27 Anthropic 模型蒸馏宪法AI
[自动] [ARXIV]	2min	school 缓解可读性代价：基于解耦证明者-验证者博弈的方法 02-27 LLM 可解释性模型评估
[自动] [ARXIV]	4min	school 高效自动化翻译基准测试与数据集的流水线 02-26 LLM 多语言模型数据集
[自动] [HACKER_NEWS]	4min	newspaper 首个完全通用的计算机动作模型 02-26 Agent LLM 计算机控制
[自动] [HACKER_NEWS]	4min	newspaper PA Bench：评估前沿模型多标签页任务能力 02-25 PA Bench 多标签页模型评估
[自动] [BLOGS_PODCASTS]	3min	mic 数十场中型发布会背后的共同主题：形成闭环 02-25 闭环数据飞轮合成数据
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI前沿评估负责人探讨SWE-Bench Verified后的下一步 02-25 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]	4min	mic OpenAI前沿评估负责人：SWE-Bench Verified后的智能体评测新方向 02-25 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI前沿评估团队：SWE-Bench Verified后的智能体评估新方向 02-25 OpenAI SWE-Bench 智能体
[自动] [ARXIV]	4min	school KNIGHT：知识图谱驱动的多选题生成与自适应难度校准 02-25 LLM RAG 知识图谱
[自动] [ARXIV]	4min	school 面向大规模视频推理的综合基准测试套件 02-24 视频推理 VBVR 基准测试
[自动] [ARXIV]	4min	school Skill-Inject：评估智能体技能文件攻击漏洞 02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI 前沿评估团队探讨迈向智能体评估的下一阶段 02-24 OpenAI SWE-Bench 智能体评估
[自动] [HACKER_NEWS]	5min	newspaper Hugging Face Skills 功能上线与模型评估体系更新 02-24 Hugging Face 模型评估 LLM
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI前沿评估团队：从SWE-Bench Verified看智能体评估演进 02-24 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]	3min	mic SWE-bench Verified 存在数据污染与评估偏差，建议改用 SWE-bench Pro 02-24 SWE-bench 数据污染基准测试
[自动] [BLOGS_PODCASTS]	3min	mic SWE-bench Verified 数据污染与测度失准分析及替代方案 02-24 SWE-bench 数据污染代码生成
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI 前沿评估团队：SWE-Bench Verified 之后的下一步 02-24 OpenAI SWE-Bench 智能体
[自动] [HACKER_NEWS]	4min	newspaper 53款模型“洗车”测试 02-24 模型评估基准测试 LLM
[自动] [JUEJIN]	2min	sticky_note_2 DeepMind研究：多智能体协作瓶颈与Agent能力天花板分析 02-24 DeepMind 多智能体 Agent
[自动] [HACKER_NEWS]	3min	newspaper 53款模型“洗车”测试：评估多模态AI在物理场景中的表现 02-24 多模态物理场景模型评估
[自动] [HACKER_NEWS]	3min	newspaper 53款模型“洗车”测试：评估代码生成与修复能力 02-24 代码生成模型评估 Bug修复
[自动] [HACKER_NEWS]	4min	newspaper 53款模型“洗车”测试：评估大模型代码生成鲁棒性 02-24 代码生成鲁棒性模型评估
[自动] [BLOGS_PODCASTS]	2min	mic 分享AI模型在First Proof数学挑战中的证明尝试 02-24 First Proof 数学证明 AI推理
[自动] [BLOGS_PODCASTS]	2min	mic SWE-bench Verified 存在数据污染与缺陷，建议迁移至 SWE-bench Pro 02-24 SWE-bench 数据污染基准测试
[自动] [BLOGS_PODCASTS]	3min	mic SWE-bench Verified 数据泄露与测试缺陷分析：为何应迁移至 SWE-bench Pro 02-24 SWE-bench 数据泄露基准测试
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI 推进智能体评估：SWE-Bench Verified 后续方向 02-24 OpenAI SWE-Bench 智能体评估
[自动] [BLOGS_PODCASTS]	2min	mic 研究显示主流AI模型向弱势用户提供的信息准确度较低 02-23 AI偏见数字鸿沟模型评估
[自动] [BLOGS_PODCASTS]	3min	mic SWE-bench Verified 数据泄漏与测试缺陷分析：为何推荐改用 SWE-bench Pro 02-23 SWE-bench 数据泄漏基准测试
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI提出SWE-Bench-Dead：智能体前沿评估的下一步 02-23 OpenAI SWE-Bench Agent
[自动] [HACKER_NEWS]	4min	newspaper 53 款模型参与“洗车”基准测试 02-23 基准测试模型评估 LLM
[自动] [BLOGS_PODCASTS]	2min	mic SWE-bench Verified 数据污染严重，推荐使用 SWE-bench Pro 02-23 SWE-bench 数据污染基准测试
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic 分享AI模型针对First Proof数学挑战的证明尝试 02-23 数学推理 First Proof 专家级问题
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法揭示大模型隐藏偏差并提升安全性 02-23 MIT LLM 模型安全
[自动] [HACKER_NEWS]	4min	newspaper 大语言模型推理失败机制分析 02-21 LLM 推理逻辑错误
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 发布自主智能体 METR 基准测试数据 02-20 Anthropic 智能体 Agent
[自动] [BLOGS_PODCASTS]	2min	mic 研究显示主流AI模型向弱势用户提供的信息准确度较低 02-20 AI偏见模型评估用户体验
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic 公布 Agent 自主性研究及 METR 基准数据 02-20 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布自主Agent研究：基于METR数据评估模型自主能力 02-20 Anthropic 自主Agent METR
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 发布自主智能体 METR 基准测试数据 02-20 Anthropic METR 自主智能体
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布基于METR数据的Agent自主性研究 02-20 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布Agent自主性研究及METR数据 02-19 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布Agent自主性研究及METR数据 02-19 Anthropic Agent 自主性
[自动] [ARXIV]	3min	school 长上下文LLM缩放缺陷：隐私与个性化任务揭示注意力分散 02-18 长上下文 LLM 个性化
[自动] [ARXIV]	3min	school 长上下文LLM隐私与个性化任务中的缩放差距研究 02-17 长上下文隐私保护个性化
[自动] [ARXIV]	3min	school 超越掩码扩散语言模型的扩展性研究 02-17 扩散模型语言模型扩展定律
[自动] [HACKER_NEWS]	4min	newspaper 语义消融实验：揭示AI写作为何平庸同质化 02-17 语义消融 AI写作同质化
[自动] [ARXIV]	4min	school 科学推理模型引入拒答机制以提升准确性 02-17 科学推理拒答机制 NLI
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的智能体技能通常无效 02-17 AI Agent 智能体 LLM
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的Agent技能实际无效 02-17 Agent LLM 研究
[自动] [HACKER_NEWS]	3min	newspaper 研究：自生成的Agent技能通常无效 02-16 Agent LLM 自生成技能
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的Agent技能通常无效 02-16 Agent LLM 自生成技能
[自动] [HACKER_NEWS]	3min	newspaper 小实验室在音频领域取得领先优势 02-16 音频生成小实验室 AI 竞争
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv 实践：评估真实环境中的工具调用智能体 02-13 智能体工具调用 OpenEnv
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv 实战：评估真实环境中的工具调用智能体 02-13 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	6min	newspaper 仅改用Harness框架即可提升15个大模型编程能力 02-13 LLM 代码生成 Harness
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv 实战：评估真实环境中的工具调用智能体 02-13 智能体工具调用 OpenEnv
[自动] [HACKER_NEWS]	7min	newspaper 仅更换框架，一下午提升15个大模型代码能力 02-13 LLM 代码生成模型评估
[自动] [HACKER_NEWS]	3min	newspaper 评估多语言上下文护栏：人道主义大模型应用 02-13 LLM 护栏多语言
[自动] [HACKER_NEWS]	7min	newspaper 仅调整框架，一下午提升15个大模型编程能力 02-13 LLM 代码生成模型评估
[自动] [ARXIV]	3min	school 能力导向训练引发大模型对齐风险研究 02-13 AI对齐强化学习奖励黑客
[自动] [HACKER_NEWS]	4min	newspaper 仅修改框架，一下午提升15个大模型代码能力 02-13 LLM 代码生成框架优化
[自动] [HACKER_NEWS]	4min	newspaper 仅更换框架，一下午提升15个大模型编程能力 02-12 LLM 代码生成框架对比
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv 实践：在真实环境中评估工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	4min	newspaper 仅调整框架一下午提升15个大模型编程能力 02-12 LLM 代码生成模型评估
[自动] [HACKER_NEWS]	4min	newspaper 仅调整框架，一下午提升15个大模型编码能力 02-12 LLM 代码生成 Prompt Engineering
[自动] [HACKER_NEWS]	4min	newspaper 仅替换调度框架，一下午提升15个大模型编程能力 02-12 LLM 代码生成调度框架
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	6min	newspaper 仅更换框架，一下午提升15个大模型编程能力 02-12 LLM 代码生成框架对比
[自动] [BLOGS_PODCASTS]	3min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	5min	newspaper 仅更换调度框架，一下午提升15个大模型代码能力 02-12 LLM 代码生成调度框架
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	3min	newspaper 大语言模型面临的幻觉与逻辑推理局限 02-12 LLM 幻觉逻辑推理
[自动] [HACKER_NEWS]	4min	newspaper 大语言模型在逻辑推理与事实准确性上的局限 02-12 LLM 逻辑推理事实准确性
[自动] [ARXIV]	3min	school LLM盲区偏差检测：识别模型未提及内容 02-11 LLM 偏见检测模型评估
[自动] [HACKER_NEWS]	3min	newspaper GLM-OCR: Accurate × Fast × Comprehensive 02-11 GLM-OCR OCR 多模态
[自动] [HACKER_NEWS]	4min	newspaper GLM-OCR：兼顾准确度、速度与通用性的多模态大模型 02-11 GLM-OCR 多模态 OCR
[自动] [ARXIV]	3min	school 智能体不确定性研究揭示过度自信问题 02-09 AI Agents 不确定性过度自信
[自动] [HACKER_NEWS]	3min	newspaper 从上下文学习比预期更难 02-07 LLM ICL 上下文学习
[自动] [HACKER_NEWS]	3min	newspaper 从上下文学习的难度超出预期 02-07 上下文学习 ICL LLM
[自动] [HACKER_NEWS]	4min	newspaper 从上下文学习的难度超出预期 02-07 上下文学习 ICL LLM
[自动] [HACKER_NEWS]	3min	newspaper 从上下文学习比预期更具挑战性 02-06 LLM ICL 上下文学习
[自动] [HACKER_NEWS]	3min	newspaper 上下文学习难度超出原有认知 02-06 上下文学习 ICL 大模型
[自动] [HACKER_NEWS]	3min	newspaper 从上下文学习比预期更难 02-06 LLM 上下文学习 ICL
[自动] [HACKER_NEWS]	3min	newspaper 从上下文学习的难度超出原有认知 02-06 上下文学习 ICL LLM
[自动] [BLOGS_PODCASTS]	3min	mic GPT-5.3-Codex：结合前沿编码性能与推理能力的代理式模型 02-05 GPT-5.3 Codex Agent
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、算力与中国角色 02-04 LLM 智能体 AI 编程
[自动] [HACKER_NEWS]	4min	newspaper 构建AI版Wattpad以评估大模型小说创作能力 02-03 LLM 小说创作模型评估
[自动] [HACKER_NEWS]	3min	newspaper 模型对齐偏差如何随智能水平与任务复杂度演变 02-03 模型对齐智能水平任务复杂度
[自动] [HACKER_NEWS]	4min	newspaper 模型智能与任务复杂度如何影响对齐偏差 02-03 对齐模型智能任务复杂度
[自动] [HACKER_NEWS]	4min	newspaper 模型对齐问题如何随智能水平与任务复杂度演变 02-03 模型对齐智能水平任务复杂度
[自动] [HACKER_NEWS]	4min	newspaper AI 基准测试新进展：Game Arena 推进评估方法 02-03 AI 基准测试 Game Arena 模型评估
[自动] [ARXIV]	3min	school 发现模型仓库中的隐藏价值 02-02 模型评估 Llama-3.1 多臂老虎机
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-01 Agent RLHF 奖励模型
[自动] [ARXIV]	3min	school 挖掘模型仓库中的隐藏价值 02-01 模型评估 Llama 微调

2026年一月 14 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 发现模型仓库中的隐藏价值 01-31 模型评估 Llama 多臂老虎机
[自动] [ARXIV]	3min	school 发现模型仓库中被忽视的高质量模型 01-30 模型评估 Llama-3.1 微调
[自动] [HACKER_NEWS]	7min	newspaper 月之暗面发布Kimi K2.5技术报告 01-30 Kimi K2.5 月之暗面
[自动] [HACKER_NEWS]	5min	newspaper Agent评估显示AGENTS.md配置优于技能配置 01-30 Agent AGENTS.md 技能配置
[自动] [ARXIV]	4min	school 基于认知上下文学习构建大模型多智能体系统的信任机制 01-30 多智能体信任机制 ECL
[自动] [ARXIV]	4min	school 机器翻译评估中的跨向污染问题研究 01-30 机器翻译数据污染 FLORES-200
[自动] [ARXIV]	4min	school SokoBench：评估大模型长周期规划与推理能力 01-30 SokoBench 长周期规划推理能力
[自动] [ARXIV]	4min	school SokoBench：评估大模型长程规划与推理能力 01-29 SokoBench 长程规划推理能力
[自动] [HACKER_NEWS]	6min	newspaper Opus 4.5 在 OTelBench 基准测试中得分仅 29% 01-29 Opus 4.5 OTelBench SRE
[自动] [BLOGS_PODCASTS]	2min	mic Alyah：评估阿拉伯语大模型阿联酋方言能力 01-29 LLM 模型评估阿拉伯语
[自动] [BLOGS_PODCASTS]	2min	mic Alyah ⭐️：阿拉伯语LLM方言鲁棒性评估！🔥 01-28 LLM 阿拉伯语方言评估
[自动] [BLOGS_PODCASTS]	3min	mic 🇦🇪 Alyah ⭐️：揭秘阿拉伯LLM方言鲁棒评估！ 01-28 LLM 阿拉伯语方言评估
[自动] [ARXIV]	4min	school MortalMATH：当推理目标遇上紧急语境，冲突何解？🧠🔥 01-27 LLM 模型评估安全对齐
[自动] [HACKER_NEWS]	4min	newspaper ⚡️俄罗斯方块爆杀Opus！Gemini Flash胜率66%震撼实测🎮 01-27 LLM Gemini Flash Claude Opus