目录
模型评估
条目:120
2026年三月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报道偏差对视觉语言推理的影响 03-01
VLM
视觉语言模型
报告偏差 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01
Anthropic
模型蒸馏
SWE-Bench |
2026年二月
104 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 02-28
VLM
视觉语言模型
报告偏差 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-28
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 02-28
模型蒸馏
SWE-Bench
Anthropic |
[自动]
[ARXIV] | 3min | school
数据集压缩至1MB:小规模数据集的模型训练效果评估 02-27
PLADA
数据集压缩
伪标签 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
宪法AI |
[自动]
[ARXIV] | 2min | school
缓解可读性代价:基于解耦证明者-验证者博弈的方法 02-27
LLM
可解释性
模型评估 |
[自动]
[ARXIV] | 4min | school
高效自动化翻译基准测试与数据集的流水线 02-26
LLM
多语言模型
数据集 |
[自动]
[HACKER_NEWS] | 4min | newspaper
首个完全通用的计算机动作模型 02-26
Agent
LLM
计算机控制 |
[自动]
[HACKER_NEWS] | 4min | newspaper
PA Bench:评估前沿模型多标签页任务能力 02-25
PA Bench
多标签页
模型评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
数十场中型发布会背后的共同主题:形成闭环 02-25
闭环
数据飞轮
合成数据 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI前沿评估负责人探讨SWE-Bench Verified后的下一步 02-25
OpenAI
SWE-Bench
智能体 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI前沿评估负责人:SWE-Bench Verified后的智能体评测新方向 02-25
OpenAI
SWE-Bench
智能体 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI前沿评估团队:SWE-Bench Verified后的智能体评估新方向 02-25
OpenAI
SWE-Bench
智能体 |
[自动]
[ARXIV] | 4min | school
KNIGHT:知识图谱驱动的多选题生成与自适应难度校准 02-25
LLM
RAG
知识图谱 |
[自动]
[ARXIV] | 4min | school
面向大规模视频推理的综合基准测试套件 02-24
视频推理
VBVR
基准测试 |
[自动]
[ARXIV] | 4min | school
Skill-Inject:评估智能体技能文件攻击漏洞 02-24
LLM Agents
Prompt Injection
Skill-Inject |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 前沿评估团队探讨迈向智能体评估的下一阶段 02-24
OpenAI
SWE-Bench
智能体评估 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Hugging Face Skills 功能上线与模型评估体系更新 02-24
Hugging Face
模型评估
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI前沿评估团队:从SWE-Bench Verified看智能体评估演进 02-24
OpenAI
SWE-Bench
智能体 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 存在数据污染与评估偏差,建议改用 SWE-bench Pro 02-24
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据污染与测度失准分析及替代方案 02-24
SWE-bench
数据污染
代码生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 前沿评估团队:SWE-Bench Verified 之后的下一步 02-24
OpenAI
SWE-Bench
智能体 |
[自动]
[HACKER_NEWS] | 4min | newspaper
53款模型“洗车”测试 02-24
模型评估
基准测试
LLM |
[自动]
[JUEJIN] | 2min | sticky_note_2
DeepMind研究:多智能体协作瓶颈与Agent能力天花板分析 02-24
DeepMind
多智能体
Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
53款模型“洗车”测试:评估多模态AI在物理场景中的表现 02-24
多模态
物理场景
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
53款模型“洗车”测试:评估代码生成与修复能力 02-24
代码生成
模型评估
Bug修复 |
[自动]
[HACKER_NEWS] | 4min | newspaper
53款模型“洗车”测试:评估大模型代码生成鲁棒性 02-24
代码生成
鲁棒性
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
分享AI模型在First Proof数学挑战中的证明尝试 02-24
First Proof
数学证明
AI推理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro 02-24
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据泄露与测试缺陷分析:为何应迁移至 SWE-bench Pro 02-24
SWE-bench
数据泄露
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 推进智能体评估:SWE-Bench Verified 后续方向 02-24
OpenAI
SWE-Bench
智能体评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
研究显示主流AI模型向弱势用户提供的信息准确度较低 02-23
AI偏见
数字鸿沟
模型评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据泄漏与测试缺陷分析:为何推荐改用 SWE-bench Pro 02-23
SWE-bench
数据泄漏
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI提出SWE-Bench-Dead:智能体前沿评估的下一步 02-23
OpenAI
SWE-Bench
Agent |
[自动]
[HACKER_NEWS] | 4min | newspaper
53 款模型参与“洗车”基准测试 02-23
基准测试
模型评估
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
SWE-bench Verified 数据污染严重,推荐使用 SWE-bench Pro 02-23
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
分享AI模型针对First Proof数学挑战的证明尝试 02-23
数学推理
First Proof
专家级问题 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法揭示大模型隐藏偏差并提升安全性 02-23
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 4min | newspaper
大语言模型推理失败机制分析 02-21
LLM
推理
逻辑错误 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 发布自主智能体 METR 基准测试数据 02-20
Anthropic
智能体
Agent |
[自动]
[BLOGS_PODCASTS] | 2min | mic
研究显示主流AI模型向弱势用户提供的信息准确度较低 02-20
AI偏见
模型评估
用户体验 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 公布 Agent 自主性研究及 METR 基准数据 02-20
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布自主Agent研究:基于METR数据评估模型自主能力 02-20
Anthropic
自主Agent
METR |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 发布自主智能体 METR 基准测试数据 02-20
Anthropic
METR
自主智能体 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布基于METR数据的Agent自主性研究 02-20
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布Agent自主性研究及METR数据 02-19
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布Agent自主性研究及METR数据 02-19
Anthropic
Agent
自主性 |
[自动]
[ARXIV] | 3min | school
长上下文LLM缩放缺陷:隐私与个性化任务揭示注意力分散 02-18
长上下文
LLM
个性化 |
[自动]
[ARXIV] | 3min | school
长上下文LLM隐私与个性化任务中的缩放差距研究 02-17
长上下文
隐私保护
个性化 |
[自动]
[ARXIV] | 3min | school
超越掩码扩散语言模型的扩展性研究 02-17
扩散模型
语言模型
扩展定律 |
[自动]
[HACKER_NEWS] | 4min | newspaper
语义消融实验:揭示AI写作为何平庸同质化 02-17
语义消融
AI写作
同质化 |
[自动]
[ARXIV] | 4min | school
科学推理模型引入拒答机制以提升准确性 02-17
科学推理
拒答机制
NLI |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的智能体技能通常无效 02-17
AI Agent
智能体
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的Agent技能实际无效 02-17
Agent
LLM
研究 |
[自动]
[HACKER_NEWS] | 3min | newspaper
研究:自生成的Agent技能通常无效 02-16
Agent
LLM
自生成技能 |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的Agent技能通常无效 02-16
Agent
LLM
自生成技能 |
[自动]
[HACKER_NEWS] | 3min | newspaper
小实验室在音频领域取得领先优势 02-16
音频生成
小实验室
AI 竞争 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实践:评估真实环境中的工具调用智能体 02-13
智能体
工具调用
OpenEnv |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实战:评估真实环境中的工具调用智能体 02-13
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅改用Harness框架即可提升15个大模型编程能力 02-13
LLM
代码生成
Harness |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实战:评估真实环境中的工具调用智能体 02-13
智能体
工具调用
OpenEnv |
[自动]
[HACKER_NEWS] | 7min | newspaper
仅更换框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
评估多语言上下文护栏:人道主义大模型应用 02-13
LLM
护栏
多语言 |
[自动]
[HACKER_NEWS] | 7min | newspaper
仅调整框架,一下午提升15个大模型编程能力 02-13
LLM
代码生成
模型评估 |
[自动]
[ARXIV] | 3min | school
能力导向训练引发大模型对齐风险研究 02-13
AI对齐
强化学习
奖励黑客 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅修改框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
框架优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅更换框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
框架对比 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实践:在真实环境中评估工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅调整框架一下午提升15个大模型编程能力 02-12
LLM
代码生成
模型评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅调整框架,一下午提升15个大模型编码能力 02-12
LLM
代码生成
Prompt Engineering |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅替换调度框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅更换框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
框架对比 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 5min | newspaper
仅更换调度框架,一下午提升15个大模型代码能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
大语言模型面临的幻觉与逻辑推理局限 02-12
LLM
幻觉
逻辑推理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
大语言模型在逻辑推理与事实准确性上的局限 02-12
LLM
逻辑推理
事实准确性 |
[自动]
[ARXIV] | 3min | school
LLM盲区偏差检测:识别模型未提及内容 02-11
LLM
偏见检测
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
GLM-OCR: Accurate × Fast × Comprehensive 02-11
GLM-OCR
OCR
多模态 |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:兼顾准确度、速度与通用性的多模态大模型 02-11
GLM-OCR
多模态
OCR |
[自动]
[ARXIV] | 3min | school
智能体不确定性研究揭示过度自信问题 02-09
AI Agents
不确定性
过度自信 |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习比预期更难 02-07
LLM
ICL
上下文学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习的难度超出预期 02-07
上下文学习
ICL
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
从上下文学习的难度超出预期 02-07
上下文学习
ICL
LLM |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习比预期更具挑战性 02-06
LLM
ICL
上下文学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
上下文学习难度超出原有认知 02-06
上下文学习
ICL
大模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习比预期更难 02-06
LLM
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习的难度超出原有认知 02-06
上下文学习
ICL
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GPT-5.3-Codex:结合前沿编码性能与推理能力的代理式模型 02-05
GPT-5.3
Codex
Agent |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、算力与中国角色 02-04
LLM
智能体
AI 编程 |
[自动]
[HACKER_NEWS] | 4min | newspaper
构建AI版Wattpad以评估大模型小说创作能力 02-03
LLM
小说创作
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
模型对齐偏差如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型智能与任务复杂度如何影响对齐偏差 02-03
对齐
模型智能
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型对齐问题如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
AI 基准测试新进展:Game Arena 推进评估方法 02-03
AI 基准测试
Game Arena
模型评估 |
[自动]
[ARXIV] | 3min | school
发现模型仓库中的隐藏价值 02-02
模型评估
Llama-3.1
多臂老虎机 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-01
Agent
RLHF
奖励模型 |
[自动]
[ARXIV] | 3min | school
挖掘模型仓库中的隐藏价值 02-01
模型评估
Llama
微调 |
2026年一月
14 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
发现模型仓库中的隐藏价值 01-31
模型评估
Llama
多臂老虎机 |
[自动]
[ARXIV] | 3min | school
发现模型仓库中被忽视的高质量模型 01-30
模型评估
Llama-3.1
微调 |
[自动]
[HACKER_NEWS] | 7min | newspaper
月之暗面发布Kimi K2.5技术报告 01-30
Kimi
K2.5
月之暗面 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent评估显示AGENTS.md配置优于技能配置 01-30
Agent
AGENTS.md
技能配置 |
[自动]
[ARXIV] | 4min | school
基于认知上下文学习构建大模型多智能体系统的信任机制 01-30
多智能体
信任机制
ECL |
[自动]
[ARXIV] | 4min | school
机器翻译评估中的跨向污染问题研究 01-30
机器翻译
数据污染
FLORES-200 |
[自动]
[ARXIV] | 4min | school
SokoBench:评估大模型长周期规划与推理能力 01-30
SokoBench
长周期规划
推理能力 |
[自动]
[ARXIV] | 4min | school
SokoBench:评估大模型长程规划与推理能力 01-29
SokoBench
长程规划
推理能力 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Opus 4.5 在 OTelBench 基准测试中得分仅 29% 01-29
Opus 4.5
OTelBench
SRE |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Alyah:评估阿拉伯语大模型阿联酋方言能力 01-29
LLM
模型评估
阿拉伯语 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Alyah ⭐️:阿拉伯语LLM方言鲁棒性评估!🔥 01-28
LLM
阿拉伯语
方言评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🇦🇪 Alyah ⭐️:揭秘阿拉伯LLM方言鲁棒评估! 01-28
LLM
阿拉伯语
方言评估 |
[自动]
[ARXIV] | 4min | school
MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥 01-27
LLM
模型评估
安全对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
⚡️俄罗斯方块爆杀Opus!Gemini Flash胜率66%震撼实测🎮 01-27
LLM
Gemini Flash
Claude Opus |
无匹配条目