目录
模型评估
条目:199
2026年三月
81 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
新指标识别大型语言模型过度自信问题 03-20
大语言模型
过度自信
不确定性量化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
新指标识别AI模型过度自信 降低幻觉风险 03-19
过度自信
不确定性量化
幻觉检测 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Mistral AI 发布 Forge:用于微调和测试的轻量级模型 03-18
Mistral AI
模型微调
轻量级模型 |
[自动]
[ARXIV] | 3min | school
反事实解释指标与用户感知的一致性研究 03-18
XAI
反事实解释
模型评估 |
[自动]
[ARXIV] | 3min | school
智能体AI中的语义不变性研究 03-17
Agentic AI
语义不变性
鲁棒性 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM Architecture Gallery 03-16
LLM
架构设计
模型部署 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM Architecture Gallery 03-16
LLM
架构设计
模型部署 |
[自动]
[ARXIV] | 3min | school
探究推理模型作为裁判在非可验证LLM后训练中的作用 03-16
LLM
后训练
LLM-as-Judge |
[自动]
[ARXIV] | 3min | school
探究推理模型作为裁判在非可验证LLM后训练中的表现 03-15
LLM
RLHF
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究员探讨提升大语言模型期望的高回报活动 03-15
OpenAI
LLM
模型评估 |
[自动]
[ARXIV] | 3min | school
探究非可验证LLM后训练中的推理模型评判机制 03-14
LLM
RLHF
强化学习 |
[自动]
[ARXIV] | 3min | school
探究推理LLM作为非可验证后训练评估器的有效性 03-13
LLM-as-Judge
RLHF
强化学习 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 模型合并率未见提升,技术瓶颈待解 03-13
LLM
模型合并
模型融合 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM 模型性能提升停滞的质疑与分析 03-12
LLM
模型性能
Scaling Laws |
[自动]
[HACKER_NEWS] | 1min | newspaper
SWE-bench通过率高的PR往往无法合并 03-12
SWE-bench
代码生成
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
生成式模型的实用价值评估与适用场景分析 03-12
生成式AI
LLM
ROI |
[自动]
[ARXIV] | 3min | school
CREATE基准:测试大语言模型的联想创造力 03-12
LLM
CREATE基准
联想创造力 |
[自动]
[ARXIV] | 2min | school
推理机制如何提升大模型的诚实度 03-11
LLM
推理机制
诚实度 |
[自动]
[HACKER_NEWS] | 1min | newspaper
SWE-bench基准测试通过率与实际PR合并率存在偏差 03-11
SWE-bench
基准测试
代码生成 |
[自动]
[ARXIV] | 3min | school
Impermanent:时间序列预测时序泛化实时基准 03-11
时间序列预测
时序泛化
实时基准 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型解释能力以增强安全关键领域可信度 03-10
可解释性
XAI
安全关键 |
[自动]
[ARXIV] | 4min | school
Impermanent:时间序列预测时序泛化实时基准 03-10
时间序列预测
时序泛化
实时基准 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型在医疗与自动驾驶等场景的可解释性 03-10
可解释性
XAI
医疗AI |
[自动]
[BLOGS_PODCASTS] | 2min | mic
新方法提升AI模型可解释性 助力医疗与自动驾驶可信度评估 03-10
可解释性
模型评估
医疗AI |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI收购AI安全平台Promptfoo以修复系统漏洞 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[ARXIV] | 4min | school
表格基础模型分布回归:基于适当评分规则的预测评估 03-10
表格基础模型
TabPFN
分布回归 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Balyasny 基于 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 03-10
Agent
GPT-5.4
工作流 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Balyasny构建AI研究引擎革新投资分析 03-09
GPT-5.4
智能体工作流
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Balyasny如何构建AI投资研究引擎与智能体工作流 03-09
智能体
工作流
投资研究 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Balyasny 如何利用 GPT‑5.4 与智能体工作流构建 AI 投研引擎 03-09
GPT-5.4
智能体工作流
Agent |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Balyasny 融合 GPT-5.4 与代理工作流构建 AI 投研引擎 03-09
LLM
Agent
工作流 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链的可监控性 03-09
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Balyasny 构建 AI 投研引擎:基于 GPT-5.4 与 Agent 工作流 03-09
Agent
LLM
GPT |
[自动]
[ARXIV] | 3min | school
利用LLM参数化知识实现无检索的事实核查 03-09
LLM
事实核查
参数化知识 |
[自动]
[ARXIV] | 3min | school
迈向偏差可控的LLM评判器:基于有界评估的无偏验证 03-08
LLM-as-a-Judge
偏见控制
模型评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Balyasny 融合 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 03-08
GPT-5.4
Agent
工作流 |
[自动]
[ARXIV] | 3min | school
审查版大模型作为秘密知识提取的自然测试床 03-07
大模型安全
对齐攻击
知识提取 |
[自动]
[ARXIV] | 3min | school
奇异贝叶斯模型中的热力学响应函数研究 03-07
贝叶斯
统计力学
WAIC |
[自动]
[ARXIV] | 3min | school
利用LLM参数化知识实现无检索的事实核查 03-07
事实核查
无检索
参数化知识 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Balyasny 基于 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 03-07
LLM
Agent
工作流 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Sarvam 105B:首个具备竞争力的印度开源大模型 03-07
Sarvam
印度
开源模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Balyasny如何构建AI投资研究引擎 03-07
GPT-5.4
智能体
工作流 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以控制思维链,强化可监控性安全价值 03-07
OpenAI
CoT
思维链 |
[自动]
[ARXIV] | 3min | school
利用LLM参数化知识实现无检索的事实核查 03-06
事实核查
无检索
参数化知识 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Balyasny 借 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 03-06
GPT-5.4
Agent
工作流 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链监控 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4思维系统卡:推理机制与安全策略详解 03-06
GPT-5.4
思维链
推理机制 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Balyasny 融合 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 03-06
Agent
GPT-5.4
工作流编排 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AI工程核心辩论:Harness Engineering是否成立 03-06
AI工程
模型挑选
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking 推理模型技术报告发布 03-06
OpenAI
GPT-5.4
推理模型 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM中的L代表撒谎:大语言模型幻觉现象分析 03-05
LLM
幻觉
模型评估 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 中的 L 代表撒谎:大语言模型的幻觉问题 03-05
LLM
幻觉
撒谎 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM中的L意指撒谎:大语言模型幻觉问题分析 03-05
LLM
幻觉
撒谎 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM中的L代表谎言:大语言模型的幻觉问题分析 03-05
LLM
幻觉
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS中国团队评估Nova Forge:VOC分类任务与开源模型基准对比 03-04
AWS
Nova Forge
VOC分类 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nova Forge 数据混合技术评估:在专业 AI 任务中保持智能水准 03-04
Nova Forge
数据混合
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS中国团队评估Nova Forge:VOC分类任务表现及开源基准对比 03-04
Nova Forge
AWS
VOC分类 |
[自动]
[ARXIV] | 3min | school
多轮LLM系统模型切换性能漂移评估方法 03-04
LLM
模型切换
性能漂移 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS中国团队评估Nova Forge:VOC分类任务性能实测 03-04
Nova Forge
AWS
VOC分类 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-03
GPT-5.3
OpenAI
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS中国团队评估Nova Forge:VOC分类任务实测与开源模型对比 03-03
Nova Forge
AWS
VOC分类 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS中国团队评估Nova Forge:在VOC分类任务中保持智能的数据混合实践 03-03
Nova Forge
AWS
数据混合 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS评估Nova Forge数据混合技术:VOC分类任务性能优于开源模型 03-03
AWS
Nova Forge
数据混合 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS中国团队评估Nova Forge:VOC分类任务与开源模型基准对比 03-03
Nova Forge
AWS
VOC分类 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS团队评估Nova Forge:VOC分类任务实测与开源模型对比 03-03
Nova Forge
AWS
VOC分类 |
[自动]
[ARXIV] | 3min | school
无智慧的知识:评估大模型与预期影响的错位 03-03
LLM
对齐
OOD |
[自动]
[ARXIV] | 3min | school
CHIMERA:用于提升大模型推理泛化能力的紧凑合成数据 03-03
LLM
合成数据
思维链 |
[自动]
[ARXIV] | 3min | school
LLM是否受益于自身生成文本的反馈训练 03-03
LLM
Self-Feedback
多轮对话 |
[自动]
[ARXIV] | 3min | school
DARE-bench:评估大模型数据科学建模与指令保真度 03-03
LLM
数据科学
基准测试 |
[自动]
[ARXIV] | 3min | school
评估学习表征可识别性的挑战与难点 03-02
表征学习
可辨识性
因果推断 |
[自动]
[ARXIV] | 3min | school
LLM是否受益于自身生成的文本 03-02
LLM
多轮对话
上下文学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS中国团队评估Nova Forge:VOC分类任务表现与开源模型基准对比 03-02
Nova Forge
AWS
VOC分类 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
METR Joel Becker谈指数级时间视界评估与威胁模型 03-02
METR
模型评估
威胁模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS Nova Forge 数据混合技术评估:兼顾专业化与智能水平 03-02
AWS
Nova Forge
数据混合 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS中国团队评估Nova Forge:VOC分类任务与开源模型基准比对 03-02
Nova Forge
AWS
VOC分类 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析直播 03-02
模型蒸馏
SWE-Bench
基准测试 |
[自动]
[ARXIV] | 4min | school
$L_p$校准误差的变分估计方法 03-02
校准误差
变分估计
Lp散度 |
[自动]
[HACKER_NEWS] | 2min | newspaper
无需重新训练即可迁移至 Claude 03-01
Claude
模型迁移
API |
[自动]
[HACKER_NEWS] | 1min | newspaper
决策树:嵌套决策规则的强大效能 03-01
决策树
机器学习
可解释性 |
[自动]
[HACKER_NEWS] | 1min | newspaper
决策树:嵌套决策规则的强大效能 03-01
决策树
机器学习
分类算法 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01
Anthropic
模型蒸馏
SWE-Bench |
2026年二月
104 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 02-28
VLM
视觉语言模型
报告偏差 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-28
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 02-28
模型蒸馏
SWE-Bench
Anthropic |
[自动]
[ARXIV] | 3min | school
数据集压缩至1MB:小规模数据集的模型训练效果评估 02-27
PLADA
数据集压缩
伪标签 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
宪法AI |
[自动]
[ARXIV] | 2min | school
缓解可读性代价:基于解耦证明者-验证者博弈的方法 02-27
LLM
可解释性
模型评估 |
[自动]
[ARXIV] | 3min | school
高效自动化翻译基准测试与数据集的流水线 02-26
LLM
多语言模型
数据集 |
[自动]
[HACKER_NEWS] | 1min | newspaper
首个完全通用的计算机动作模型 02-26
Agent
LLM
计算机控制 |
[自动]
[HACKER_NEWS] | 1min | newspaper
PA Bench:评估前沿模型多标签页任务能力 02-25
PA Bench
多标签页
模型评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
数十场中型发布会背后的共同主题:形成闭环 02-25
闭环
数据飞轮
合成数据 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI前沿评估负责人探讨SWE-Bench Verified后的下一步 02-25
OpenAI
SWE-Bench
智能体 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI前沿评估负责人:SWE-Bench Verified后的智能体评测新方向 02-25
OpenAI
SWE-Bench
智能体 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI前沿评估团队:SWE-Bench Verified后的智能体评估新方向 02-25
OpenAI
SWE-Bench
智能体 |
[自动]
[ARXIV] | 3min | school
KNIGHT:知识图谱驱动的多选题生成与自适应难度校准 02-25
LLM
RAG
知识图谱 |
[自动]
[ARXIV] | 3min | school
面向大规模视频推理的综合基准测试套件 02-24
视频推理
VBVR
基准测试 |
[自动]
[ARXIV] | 4min | school
Skill-Inject:评估智能体技能文件攻击漏洞 02-24
LLM Agents
Prompt Injection
Skill-Inject |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 前沿评估团队探讨迈向智能体评估的下一阶段 02-24
OpenAI
SWE-Bench
智能体评估 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Hugging Face Skills 功能上线与模型评估体系更新 02-24
Hugging Face
模型评估
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI前沿评估团队:从SWE-Bench Verified看智能体评估演进 02-24
OpenAI
SWE-Bench
智能体 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 存在数据污染与评估偏差,建议改用 SWE-bench Pro 02-24
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据污染与测度失准分析及替代方案 02-24
SWE-bench
数据污染
代码生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 前沿评估团队:SWE-Bench Verified 之后的下一步 02-24
OpenAI
SWE-Bench
智能体 |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试 02-24
模型评估
基准测试
LLM |
[自动]
[JUEJIN] | 2min | sticky_note_2
DeepMind研究:多智能体协作瓶颈与Agent能力天花板分析 02-24
DeepMind
多智能体
Agent |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试:评估多模态AI在物理场景中的表现 02-24
多模态
物理场景
模型评估 |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试:评估代码生成与修复能力 02-24
代码生成
模型评估
Bug修复 |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试:评估大模型代码生成鲁棒性 02-24
代码生成
鲁棒性
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
分享AI模型在First Proof数学挑战中的证明尝试 02-24
First Proof
数学证明
AI推理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro 02-24
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据泄露与测试缺陷分析:为何应迁移至 SWE-bench Pro 02-24
SWE-bench
数据泄露
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 推进智能体评估:SWE-Bench Verified 后续方向 02-24
OpenAI
SWE-Bench
智能体评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
研究显示主流AI模型向弱势用户提供的信息准确度较低 02-23
AI偏见
数字鸿沟
模型评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据泄漏与测试缺陷分析:为何推荐改用 SWE-bench Pro 02-23
SWE-bench
数据泄漏
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI提出SWE-Bench-Dead:智能体前沿评估的下一步 02-23
OpenAI
SWE-Bench
Agent |
[自动]
[HACKER_NEWS] | 1min | newspaper
53 款模型参与“洗车”基准测试 02-23
基准测试
模型评估
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
SWE-bench Verified 数据污染严重,推荐使用 SWE-bench Pro 02-23
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
分享AI模型针对First Proof数学挑战的证明尝试 02-23
数学推理
First Proof
专家级问题 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法揭示大模型隐藏偏差并提升安全性 02-23
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
大语言模型推理失败机制分析 02-21
LLM
推理
逻辑错误 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 发布自主智能体 METR 基准测试数据 02-20
Anthropic
智能体
Agent |
[自动]
[BLOGS_PODCASTS] | 2min | mic
研究显示主流AI模型向弱势用户提供的信息准确度较低 02-20
AI偏见
模型评估
用户体验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 公布 Agent 自主性研究及 METR 基准数据 02-20
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布自主Agent研究:基于METR数据评估模型自主能力 02-20
Anthropic
自主Agent
METR |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 发布自主智能体 METR 基准测试数据 02-20
Anthropic
METR
自主智能体 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布基于METR数据的Agent自主性研究 02-20
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布Agent自主性研究及METR数据 02-19
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布Agent自主性研究及METR数据 02-19
Anthropic
Agent
自主性 |
[自动]
[ARXIV] | 3min | school
长上下文LLM缩放缺陷:隐私与个性化任务揭示注意力分散 02-18
长上下文
LLM
个性化 |
[自动]
[ARXIV] | 3min | school
长上下文LLM隐私与个性化任务中的缩放差距研究 02-17
长上下文
隐私保护
个性化 |
[自动]
[ARXIV] | 3min | school
超越掩码扩散语言模型的扩展性研究 02-17
扩散模型
语言模型
扩展定律 |
[自动]
[HACKER_NEWS] | 4min | newspaper
语义消融实验:揭示AI写作为何平庸同质化 02-17
语义消融
AI写作
同质化 |
[自动]
[ARXIV] | 4min | school
科学推理模型引入拒答机制以提升准确性 02-17
科学推理
拒答机制
NLI |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的智能体技能通常无效 02-17
AI Agent
智能体
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的Agent技能实际无效 02-17
Agent
LLM
研究 |
[自动]
[HACKER_NEWS] | 3min | newspaper
研究:自生成的Agent技能通常无效 02-16
Agent
LLM
自生成技能 |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的Agent技能通常无效 02-16
Agent
LLM
自生成技能 |
[自动]
[HACKER_NEWS] | 3min | newspaper
小实验室在音频领域取得领先优势 02-16
音频生成
小实验室
AI 竞争 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实践:评估真实环境中的工具调用智能体 02-13
智能体
工具调用
OpenEnv |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实战:评估真实环境中的工具调用智能体 02-13
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅改用Harness框架即可提升15个大模型编程能力 02-13
LLM
代码生成
Harness |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实战:评估真实环境中的工具调用智能体 02-13
智能体
工具调用
OpenEnv |
[自动]
[HACKER_NEWS] | 7min | newspaper
仅更换框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
评估多语言上下文护栏:人道主义大模型应用 02-13
LLM
护栏
多语言 |
[自动]
[HACKER_NEWS] | 7min | newspaper
仅调整框架,一下午提升15个大模型编程能力 02-13
LLM
代码生成
模型评估 |
[自动]
[ARXIV] | 3min | school
能力导向训练引发大模型对齐风险研究 02-13
AI对齐
强化学习
奖励黑客 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅修改框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
框架优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅更换框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
框架对比 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实践:在真实环境中评估工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅调整框架一下午提升15个大模型编程能力 02-12
LLM
代码生成
模型评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅调整框架,一下午提升15个大模型编码能力 02-12
LLM
代码生成
Prompt Engineering |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅替换调度框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅更换框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
框架对比 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 5min | newspaper
仅更换调度框架,一下午提升15个大模型代码能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
大语言模型面临的幻觉与逻辑推理局限 02-12
LLM
幻觉
逻辑推理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
大语言模型在逻辑推理与事实准确性上的局限 02-12
LLM
逻辑推理
事实准确性 |
[自动]
[ARXIV] | 3min | school
LLM盲区偏差检测:识别模型未提及内容 02-11
LLM
偏见检测
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
GLM-OCR: Accurate × Fast × Comprehensive 02-11
GLM-OCR
OCR
多模态 |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:兼顾准确度、速度与通用性的多模态大模型 02-11
GLM-OCR
多模态
OCR |
[自动]
[ARXIV] | 3min | school
智能体不确定性研究揭示过度自信问题 02-09
AI Agents
不确定性
过度自信 |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习比预期更难 02-07
LLM
ICL
上下文学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习的难度超出预期 02-07
上下文学习
ICL
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
从上下文学习的难度超出预期 02-07
上下文学习
ICL
LLM |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习比预期更具挑战性 02-06
LLM
ICL
上下文学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
上下文学习难度超出原有认知 02-06
上下文学习
ICL
大模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习比预期更难 02-06
LLM
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 3min | newspaper
从上下文学习的难度超出原有认知 02-06
上下文学习
ICL
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GPT-5.3-Codex:结合前沿编码性能与推理能力的代理式模型 02-05
GPT-5.3
Codex
Agent |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、算力与中国角色 02-04
LLM
智能体
AI 编程 |
[自动]
[HACKER_NEWS] | 3min | newspaper
构建AI版Wattpad以评估大模型小说创作能力 02-03
LLM
小说创作
模型评估 |
[自动]
[HACKER_NEWS] | 3min | newspaper
模型对齐偏差如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型智能与任务复杂度如何影响对齐偏差 02-03
对齐
模型智能
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型对齐问题如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
AI 基准测试新进展:Game Arena 推进评估方法 02-03
AI 基准测试
Game Arena
模型评估 |
[自动]
[ARXIV] | 3min | school
发现模型仓库中的隐藏价值 02-02
模型评估
Llama-3.1
多臂老虎机 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-01
Agent
RLHF
奖励模型 |
[自动]
[ARXIV] | 3min | school
挖掘模型仓库中的隐藏价值 02-01
模型评估
Llama
微调 |
2026年一月
14 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
发现模型仓库中的隐藏价值 01-31
模型评估
Llama
多臂老虎机 |
[自动]
[ARXIV] | 3min | school
发现模型仓库中被忽视的高质量模型 01-30
模型评估
Llama-3.1
微调 |
[自动]
[HACKER_NEWS] | 7min | newspaper
月之暗面发布Kimi K2.5技术报告 01-30
Kimi
K2.5
月之暗面 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent评估显示AGENTS.md配置优于技能配置 01-30
Agent
AGENTS.md
技能配置 |
[自动]
[ARXIV] | 3min | school
基于认知上下文学习构建大模型多智能体系统的信任机制 01-30
多智能体
信任机制
ECL |
[自动]
[ARXIV] | 4min | school
机器翻译评估中的跨向污染问题研究 01-30
机器翻译
数据污染
FLORES-200 |
[自动]
[ARXIV] | 4min | school
SokoBench:评估大模型长周期规划与推理能力 01-30
SokoBench
长周期规划
推理能力 |
[自动]
[ARXIV] | 4min | school
SokoBench:评估大模型长程规划与推理能力 01-29
SokoBench
长程规划
推理能力 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Opus 4.5 在 OTelBench 基准测试中得分仅 29% 01-29
Opus 4.5
OTelBench
SRE |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Alyah:评估阿拉伯语大模型阿联酋方言能力 01-29
LLM
模型评估
阿拉伯语 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Alyah ⭐️:阿拉伯语LLM方言鲁棒性评估!🔥 01-28
LLM
阿拉伯语
方言评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🇦🇪 Alyah ⭐️:揭秘阿拉伯LLM方言鲁棒评估! 01-28
LLM
阿拉伯语
方言评估 |
[自动]
[ARXIV] | 4min | school
MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥 01-27
LLM
模型评估
安全对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
⚡️俄罗斯方块爆杀Opus!Gemini Flash胜率66%震撼实测🎮 01-27
LLM
Gemini Flash
Claude Opus |
无匹配条目