terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型评估

条目:199
2026年三月 81 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic 新指标识别大型语言模型过度自信问题
03-20 大语言模型 过度自信 不确定性量化
[自动] [BLOGS_PODCASTS]
2minmic 新指标识别AI模型过度自信 降低幻觉风险
03-19 过度自信 不确定性量化 幻觉检测
[自动] [HACKER_NEWS]
1minnewspaper Mistral AI 发布 Forge:用于微调和测试的轻量级模型
03-18 Mistral AI 模型微调 轻量级模型
[自动] [ARXIV]
3minschool 反事实解释指标与用户感知的一致性研究
03-18 XAI 反事实解释 模型评估
[自动] [ARXIV]
3minschool 智能体AI中的语义不变性研究
03-17 Agentic AI 语义不变性 鲁棒性
[自动] [HACKER_NEWS]
1minnewspaper LLM Architecture Gallery
03-16 LLM 架构设计 模型部署
[自动] [HACKER_NEWS]
4minnewspaper LLM Architecture Gallery
03-16 LLM 架构设计 模型部署
[自动] [ARXIV]
3minschool 探究推理模型作为裁判在非可验证LLM后训练中的作用
03-16 LLM 后训练 LLM-as-Judge
[自动] [ARXIV]
3minschool 探究推理模型作为裁判在非可验证LLM后训练中的表现
03-15 LLM RLHF 强化学习
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究员探讨提升大语言模型期望的高回报活动
03-15 OpenAI LLM 模型评估
[自动] [ARXIV]
3minschool 探究非可验证LLM后训练中的推理模型评判机制
03-14 LLM RLHF 强化学习
[自动] [ARXIV]
3minschool 探究推理LLM作为非可验证后训练评估器的有效性
03-13 LLM-as-Judge RLHF 强化学习
[自动] [HACKER_NEWS]
1minnewspaper LLM 模型合并率未见提升,技术瓶颈待解
03-13 LLM 模型合并 模型融合
[自动] [HACKER_NEWS]
4minnewspaper LLM 模型性能提升停滞的质疑与分析
03-12 LLM 模型性能 Scaling Laws
[自动] [HACKER_NEWS]
1minnewspaper SWE-bench通过率高的PR往往无法合并
03-12 SWE-bench 代码生成 LLM
[自动] [HACKER_NEWS]
1minnewspaper 生成式模型的实用价值评估与适用场景分析
03-12 生成式AI LLM ROI
[自动] [ARXIV]
3minschool CREATE基准:测试大语言模型的联想创造力
03-12 LLM CREATE基准 联想创造力
[自动] [ARXIV]
2minschool 推理机制如何提升大模型的诚实度
03-11 LLM 推理机制 诚实度
[自动] [HACKER_NEWS]
1minnewspaper SWE-bench基准测试通过率与实际PR合并率存在偏差
03-11 SWE-bench 基准测试 代码生成
[自动] [ARXIV]
3minschool Impermanent:时间序列预测时序泛化实时基准
03-11 时间序列预测 时序泛化 实时基准
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键领域可信度
03-10 可解释性 XAI 安全关键
[自动] [ARXIV]
4minschool Impermanent:时间序列预测时序泛化实时基准
03-10 时间序列预测 时序泛化 实时基准
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型在医疗与自动驾驶等场景的可解释性
03-10 可解释性 XAI 医疗AI
[自动] [BLOGS_PODCASTS]
2minmic 新方法提升AI模型可解释性 助力医疗与自动驾驶可信度评估
03-10 可解释性 模型评估 医疗AI
[自动] [BLOGS_PODCASTS]
4minmic OpenAI收购AI安全平台Promptfoo以修复系统漏洞
03-10 OpenAI Promptfoo AI安全
[自动] [ARXIV]
4minschool 表格基础模型分布回归:基于适当评分规则的预测评估
03-10 表格基础模型 TabPFN 分布回归
[自动] [BLOGS_PODCASTS]
3minmic Balyasny 基于 GPT-5.4 与 Agent 工作流构建 AI 投研引擎
03-10 Agent GPT-5.4 工作流
[自动] [BLOGS_PODCASTS]
3minmic Balyasny构建AI研究引擎革新投资分析
03-09 GPT-5.4 智能体工作流 模型评估
[自动] [BLOGS_PODCASTS]
2minmic Balyasny如何构建AI投资研究引擎与智能体工作流
03-09 智能体 工作流 投资研究
[自动] [BLOGS_PODCASTS]
3minmic Balyasny 如何利用 GPT‑5.4 与智能体工作流构建 AI 投研引擎
03-09 GPT-5.4 智能体工作流 Agent
[自动] [BLOGS_PODCASTS]
2minmic Balyasny 融合 GPT-5.4 与代理工作流构建 AI 投研引擎
03-09 LLM Agent 工作流
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型思维链的可监控性
03-09 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic Balyasny 构建 AI 投研引擎:基于 GPT-5.4 与 Agent 工作流
03-09 Agent LLM GPT
[自动] [ARXIV]
3minschool 利用LLM参数化知识实现无检索的事实核查
03-09 LLM 事实核查 参数化知识
[自动] [ARXIV]
3minschool 迈向偏差可控的LLM评判器:基于有界评估的无偏验证
03-08 LLM-as-a-Judge 偏见控制 模型评估
[自动] [BLOGS_PODCASTS]
3minmic Balyasny 融合 GPT-5.4 与 Agent 工作流构建 AI 投研引擎
03-08 GPT-5.4 Agent 工作流
[自动] [ARXIV]
3minschool 审查版大模型作为秘密知识提取的自然测试床
03-07 大模型安全 对齐攻击 知识提取
[自动] [ARXIV]
3minschool 奇异贝叶斯模型中的热力学响应函数研究
03-07 贝叶斯 统计力学 WAIC
[自动] [ARXIV]
3minschool 利用LLM参数化知识实现无检索的事实核查
03-07 事实核查 无检索 参数化知识
[自动] [BLOGS_PODCASTS]
2minmic Balyasny 基于 GPT-5.4 与 Agent 工作流构建 AI 投研引擎
03-07 LLM Agent 工作流
[自动] [HACKER_NEWS]
1minnewspaper Sarvam 105B:首个具备竞争力的印度开源大模型
03-07 Sarvam 印度 开源模型
[自动] [BLOGS_PODCASTS]
2minmic Balyasny如何构建AI投资研究引擎
03-07 GPT-5.4 智能体 工作流
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型难以控制思维链,强化可监控性安全价值
03-07 OpenAI CoT 思维链
[自动] [ARXIV]
3minschool 利用LLM参数化知识实现无检索的事实核查
03-06 事实核查 无检索 参数化知识
[自动] [BLOGS_PODCASTS]
3minmic Balyasny 借 GPT-5.4 与 Agent 工作流构建 AI 投研引擎
03-06 GPT-5.4 Agent 工作流
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型思维链监控
03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4思维系统卡:推理机制与安全策略详解
03-06 GPT-5.4 思维链 推理机制
[自动] [BLOGS_PODCASTS]
3minmic Balyasny 融合 GPT-5.4 与 Agent 工作流构建 AI 投研引擎
03-06 Agent GPT-5.4 工作流编排
[自动] [BLOGS_PODCASTS]
3minmic AI工程核心辩论:Harness Engineering是否成立
03-06 AI工程 模型挑选 LLM
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 推理模型技术报告发布
03-06 OpenAI GPT-5.4 推理模型
[自动] [HACKER_NEWS]
1minnewspaper LLM中的L代表撒谎:大语言模型幻觉现象分析
03-05 LLM 幻觉 模型评估
[自动] [HACKER_NEWS]
1minnewspaper LLM 中的 L 代表撒谎:大语言模型的幻觉问题
03-05 LLM 幻觉 撒谎
[自动] [HACKER_NEWS]
1minnewspaper LLM中的L意指撒谎:大语言模型幻觉问题分析
03-05 LLM 幻觉 撒谎
[自动] [HACKER_NEWS]
1minnewspaper LLM中的L代表谎言:大语言模型的幻觉问题分析
03-05 LLM 幻觉 AI安全
[自动] [BLOGS_PODCASTS]
2minmic AWS中国团队评估Nova Forge:VOC分类任务与开源模型基准对比
03-04 AWS Nova Forge VOC分类
[自动] [BLOGS_PODCASTS]
3minmic Nova Forge 数据混合技术评估:在专业 AI 任务中保持智能水准
03-04 Nova Forge 数据混合 模型评估
[自动] [BLOGS_PODCASTS]
2minmic AWS中国团队评估Nova Forge:VOC分类任务表现及开源基准对比
03-04 Nova Forge AWS VOC分类
[自动] [ARXIV]
3minschool 多轮LLM系统模型切换性能漂移评估方法
03-04 LLM 模型切换 性能漂移
[自动] [BLOGS_PODCASTS]
2minmic AWS中国团队评估Nova Forge:VOC分类任务性能实测
03-04 Nova Forge AWS VOC分类
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-03 GPT-5.3 OpenAI 系统卡
[自动] [BLOGS_PODCASTS]
2minmic AWS中国团队评估Nova Forge:VOC分类任务实测与开源模型对比
03-03 Nova Forge AWS VOC分类
[自动] [BLOGS_PODCASTS]
2minmic AWS中国团队评估Nova Forge:在VOC分类任务中保持智能的数据混合实践
03-03 Nova Forge AWS 数据混合
[自动] [BLOGS_PODCASTS]
2minmic AWS评估Nova Forge数据混合技术:VOC分类任务性能优于开源模型
03-03 AWS Nova Forge 数据混合
[自动] [BLOGS_PODCASTS]
3minmic AWS中国团队评估Nova Forge:VOC分类任务与开源模型基准对比
03-03 Nova Forge AWS VOC分类
[自动] [BLOGS_PODCASTS]
2minmic AWS团队评估Nova Forge:VOC分类任务实测与开源模型对比
03-03 Nova Forge AWS VOC分类
[自动] [ARXIV]
3minschool 无智慧的知识:评估大模型与预期影响的错位
03-03 LLM 对齐 OOD
[自动] [ARXIV]
3minschool CHIMERA:用于提升大模型推理泛化能力的紧凑合成数据
03-03 LLM 合成数据 思维链
[自动] [ARXIV]
3minschool LLM是否受益于自身生成文本的反馈训练
03-03 LLM Self-Feedback 多轮对话
[自动] [ARXIV]
3minschool DARE-bench:评估大模型数据科学建模与指令保真度
03-03 LLM 数据科学 基准测试
[自动] [ARXIV]
3minschool 评估学习表征可识别性的挑战与难点
03-02 表征学习 可辨识性 因果推断
[自动] [ARXIV]
3minschool LLM是否受益于自身生成的文本
03-02 LLM 多轮对话 上下文学习
[自动] [BLOGS_PODCASTS]
2minmic AWS中国团队评估Nova Forge:VOC分类任务表现与开源模型基准对比
03-02 Nova Forge AWS VOC分类
[自动] [BLOGS_PODCASTS]
3minmic METR Joel Becker谈指数级时间视界评估与威胁模型
03-02 METR 模型评估 威胁模型
[自动] [BLOGS_PODCASTS]
3minmic AWS Nova Forge 数据混合技术评估:兼顾专业化与智能水平
03-02 AWS Nova Forge 数据混合
[自动] [BLOGS_PODCASTS]
3minmic AWS中国团队评估Nova Forge:VOC分类任务与开源模型基准比对
03-02 Nova Forge AWS VOC分类
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析直播
03-02 模型蒸馏 SWE-Bench 基准测试
[自动] [ARXIV]
4minschool $L_p$校准误差的变分估计方法
03-02 校准误差 变分估计 Lp散度
[自动] [HACKER_NEWS]
2minnewspaper 无需重新训练即可迁移至 Claude
03-01 Claude 模型迁移 API
[自动] [HACKER_NEWS]
1minnewspaper 决策树:嵌套决策规则的强大效能
03-01 决策树 机器学习 可解释性
[自动] [HACKER_NEWS]
1minnewspaper 决策树:嵌套决策规则的强大效能
03-01 决策树 机器学习 分类算法
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
03-01 Anthropic 模型蒸馏 SWE-Bench
2026年二月 104 篇
类型阅读条目
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
02-28 VLM 视觉语言模型 报告偏差
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-28 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [ARXIV]
3minschool 数据集压缩至1MB:小规模数据集的模型训练效果评估
02-27 PLADA 数据集压缩 伪标签
[自动] [BLOGS_PODCASTS]
2minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
2minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 宪法AI
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [ARXIV]
3minschool 高效自动化翻译基准测试与数据集的流水线
02-26 LLM 多语言模型 数据集
[自动] [HACKER_NEWS]
1minnewspaper 首个完全通用的计算机动作模型
02-26 Agent LLM 计算机控制
[自动] [HACKER_NEWS]
1minnewspaper PA Bench:评估前沿模型多标签页任务能力
02-25 PA Bench 多标签页 模型评估
[自动] [BLOGS_PODCASTS]
3minmic 数十场中型发布会背后的共同主题:形成闭环
02-25 闭环 数据飞轮 合成数据
[自动] [BLOGS_PODCASTS]
3minmic OpenAI前沿评估负责人探讨SWE-Bench Verified后的下一步
02-25 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]
4minmic OpenAI前沿评估负责人:SWE-Bench Verified后的智能体评测新方向
02-25 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]
3minmic OpenAI前沿评估团队:SWE-Bench Verified后的智能体评估新方向
02-25 OpenAI SWE-Bench 智能体
[自动] [ARXIV]
3minschool KNIGHT:知识图谱驱动的多选题生成与自适应难度校准
02-25 LLM RAG 知识图谱
[自动] [ARXIV]
3minschool 面向大规模视频推理的综合基准测试套件
02-24 视频推理 VBVR 基准测试
[自动] [ARXIV]
4minschool Skill-Inject:评估智能体技能文件攻击漏洞
02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 前沿评估团队探讨迈向智能体评估的下一阶段
02-24 OpenAI SWE-Bench 智能体评估
[自动] [HACKER_NEWS]
1minnewspaper Hugging Face Skills 功能上线与模型评估体系更新
02-24 Hugging Face 模型评估 LLM
[自动] [BLOGS_PODCASTS]
2minmic OpenAI前沿评估团队:从SWE-Bench Verified看智能体评估演进
02-24 OpenAI SWE-Bench 智能体
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 存在数据污染与评估偏差,建议改用 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据污染与测度失准分析及替代方案
02-24 SWE-bench 数据污染 代码生成
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 前沿评估团队:SWE-Bench Verified 之后的下一步
02-24 OpenAI SWE-Bench 智能体
[自动] [HACKER_NEWS]
1minnewspaper 53款模型“洗车”测试
02-24 模型评估 基准测试 LLM
[自动] [JUEJIN]
2minsticky_note_2 DeepMind研究:多智能体协作瓶颈与Agent能力天花板分析
02-24 DeepMind 多智能体 Agent
[自动] [HACKER_NEWS]
1minnewspaper 53款模型“洗车”测试:评估多模态AI在物理场景中的表现
02-24 多模态 物理场景 模型评估
[自动] [HACKER_NEWS]
1minnewspaper 53款模型“洗车”测试:评估代码生成与修复能力
02-24 代码生成 模型评估 Bug修复
[自动] [HACKER_NEWS]
1minnewspaper 53款模型“洗车”测试:评估大模型代码生成鲁棒性
02-24 代码生成 鲁棒性 模型评估
[自动] [BLOGS_PODCASTS]
2minmic 分享AI模型在First Proof数学挑战中的证明尝试
02-24 First Proof 数学证明 AI推理
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄露与测试缺陷分析:为何应迁移至 SWE-bench Pro
02-24 SWE-bench 数据泄露 基准测试
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 推进智能体评估:SWE-Bench Verified 后续方向
02-24 OpenAI SWE-Bench 智能体评估
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型向弱势用户提供的信息准确度较低
02-23 AI偏见 数字鸿沟 模型评估
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄漏与测试缺陷分析:为何推荐改用 SWE-bench Pro
02-23 SWE-bench 数据泄漏 基准测试
[自动] [BLOGS_PODCASTS]
3minmic OpenAI提出SWE-Bench-Dead:智能体前沿评估的下一步
02-23 OpenAI SWE-Bench Agent
[自动] [HACKER_NEWS]
1minnewspaper 53 款模型参与“洗车”基准测试
02-23 基准测试 模型评估 LLM
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 数据污染严重,推荐使用 SWE-bench Pro
02-23 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 分享AI模型针对First Proof数学挑战的证明尝试
02-23 数学推理 First Proof 专家级问题
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法揭示大模型隐藏偏差并提升安全性
02-23 MIT LLM 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 大语言模型推理失败机制分析
02-21 LLM 推理 逻辑错误
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 发布自主智能体 METR 基准测试数据
02-20 Anthropic 智能体 Agent
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型向弱势用户提供的信息准确度较低
02-20 AI偏见 模型评估 用户体验
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 公布 Agent 自主性研究及 METR 基准数据
02-20 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布自主Agent研究:基于METR数据评估模型自主能力
02-20 Anthropic 自主Agent METR
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 发布自主智能体 METR 基准测试数据
02-20 Anthropic METR 自主智能体
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大语言模型安全性
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布基于METR数据的Agent自主性研究
02-20 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-19 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [ARXIV]
3minschool 长上下文LLM缩放缺陷:隐私与个性化任务揭示注意力分散
02-18 长上下文 LLM 个性化
[自动] [ARXIV]
3minschool 长上下文LLM隐私与个性化任务中的缩放差距研究
02-17 长上下文 隐私保护 个性化
[自动] [ARXIV]
3minschool 超越掩码扩散语言模型的扩展性研究
02-17 扩散模型 语言模型 扩展定律
[自动] [HACKER_NEWS]
4minnewspaper 语义消融实验:揭示AI写作为何平庸同质化
02-17 语义消融 AI写作 同质化
[自动] [ARXIV]
4minschool 科学推理模型引入拒答机制以提升准确性
02-17 科学推理 拒答机制 NLI
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的智能体技能通常无效
02-17 AI Agent 智能体 LLM
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的Agent技能实际无效
02-17 Agent LLM 研究
[自动] [HACKER_NEWS]
3minnewspaper 研究:自生成的Agent技能通常无效
02-16 Agent LLM 自生成技能
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的Agent技能通常无效
02-16 Agent LLM 自生成技能
[自动] [HACKER_NEWS]
3minnewspaper 小实验室在音频领域取得领先优势
02-16 音频生成 小实验室 AI 竞争
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实践:评估真实环境中的工具调用智能体
02-13 智能体 工具调用 OpenEnv
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实战:评估真实环境中的工具调用智能体
02-13 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
6minnewspaper 仅改用Harness框架即可提升15个大模型编程能力
02-13 LLM 代码生成 Harness
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实战:评估真实环境中的工具调用智能体
02-13 智能体 工具调用 OpenEnv
[自动] [HACKER_NEWS]
7minnewspaper 仅更换框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 模型评估
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义大模型应用
02-13 LLM 护栏 多语言
[自动] [HACKER_NEWS]
7minnewspaper 仅调整框架,一下午提升15个大模型编程能力
02-13 LLM 代码生成 模型评估
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客
[自动] [HACKER_NEWS]
4minnewspaper 仅修改框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 框架优化
[自动] [HACKER_NEWS]
4minnewspaper 仅更换框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 框架对比
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实践:在真实环境中评估工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
4minnewspaper 仅调整框架一下午提升15个大模型编程能力
02-12 LLM 代码生成 模型评估
[自动] [HACKER_NEWS]
4minnewspaper 仅调整框架,一下午提升15个大模型编码能力
02-12 LLM 代码生成 Prompt Engineering
[自动] [HACKER_NEWS]
4minnewspaper 仅替换调度框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
6minnewspaper 仅更换框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 框架对比
[自动] [BLOGS_PODCASTS]
3minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
5minnewspaper 仅更换调度框架,一下午提升15个大模型代码能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
3minnewspaper 大语言模型面临的幻觉与逻辑推理局限
02-12 LLM 幻觉 逻辑推理
[自动] [HACKER_NEWS]
4minnewspaper 大语言模型在逻辑推理与事实准确性上的局限
02-12 LLM 逻辑推理 事实准确性
[自动] [ARXIV]
3minschool LLM盲区偏差检测:识别模型未提及内容
02-11 LLM 偏见检测 模型评估
[自动] [HACKER_NEWS]
3minnewspaper GLM-OCR: Accurate × Fast × Comprehensive
02-11 GLM-OCR OCR 多模态
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:兼顾准确度、速度与通用性的多模态大模型
02-11 GLM-OCR 多模态 OCR
[自动] [ARXIV]
3minschool 智能体不确定性研究揭示过度自信问题
02-09 AI Agents 不确定性 过度自信
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习比预期更难
02-07 LLM ICL 上下文学习
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习的难度超出预期
02-07 上下文学习 ICL LLM
[自动] [HACKER_NEWS]
4minnewspaper 从上下文学习的难度超出预期
02-07 上下文学习 ICL LLM
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习比预期更具挑战性
02-06 LLM ICL 上下文学习
[自动] [HACKER_NEWS]
3minnewspaper 上下文学习难度超出原有认知
02-06 上下文学习 ICL 大模型
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习比预期更难
02-06 LLM 上下文学习 ICL
[自动] [HACKER_NEWS]
3minnewspaper 从上下文学习的难度超出原有认知
02-06 上下文学习 ICL LLM
[自动] [BLOGS_PODCASTS]
3minmic GPT-5.3-Codex:结合前沿编码性能与推理能力的代理式模型
02-05 GPT-5.3 Codex Agent
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、算力与中国角色
02-04 LLM 智能体 AI 编程
[自动] [HACKER_NEWS]
3minnewspaper 构建AI版Wattpad以评估大模型小说创作能力
02-03 LLM 小说创作 模型评估
[自动] [HACKER_NEWS]
3minnewspaper 模型对齐偏差如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型智能与任务复杂度如何影响对齐偏差
02-03 对齐 模型智能 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型对齐问题如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper AI 基准测试新进展:Game Arena 推进评估方法
02-03 AI 基准测试 Game Arena 模型评估
[自动] [ARXIV]
3minschool 发现模型仓库中的隐藏价值
02-02 模型评估 Llama-3.1 多臂老虎机
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-01 Agent RLHF 奖励模型
[自动] [ARXIV]
3minschool 挖掘模型仓库中的隐藏价值
02-01 模型评估 Llama 微调
2026年一月 14 篇
类型阅读条目
[自动] [ARXIV]
4minschool 发现模型仓库中的隐藏价值
01-31 模型评估 Llama 多臂老虎机
[自动] [ARXIV]
3minschool 发现模型仓库中被忽视的高质量模型
01-30 模型评估 Llama-3.1 微调
[自动] [HACKER_NEWS]
7minnewspaper 月之暗面发布Kimi K2.5技术报告
01-30 Kimi K2.5 月之暗面
[自动] [HACKER_NEWS]
5minnewspaper Agent评估显示AGENTS.md配置优于技能配置
01-30 Agent AGENTS.md 技能配置
[自动] [ARXIV]
3minschool 基于认知上下文学习构建大模型多智能体系统的信任机制
01-30 多智能体 信任机制 ECL
[自动] [ARXIV]
4minschool 机器翻译评估中的跨向污染问题研究
01-30 机器翻译 数据污染 FLORES-200
[自动] [ARXIV]
4minschool SokoBench:评估大模型长周期规划与推理能力
01-30 SokoBench 长周期规划 推理能力
[自动] [ARXIV]
4minschool SokoBench:评估大模型长程规划与推理能力
01-29 SokoBench 长程规划 推理能力
[自动] [HACKER_NEWS]
6minnewspaper Opus 4.5 在 OTelBench 基准测试中得分仅 29%
01-29 Opus 4.5 OTelBench SRE
[自动] [BLOGS_PODCASTS]
2minmic Alyah:评估阿拉伯语大模型阿联酋方言能力
01-29 LLM 模型评估 阿拉伯语
[自动] [BLOGS_PODCASTS]
2minmic Alyah ⭐️:阿拉伯语LLM方言鲁棒性评估!🔥
01-28 LLM 阿拉伯语 方言评估
[自动] [BLOGS_PODCASTS]
3minmic 🇦🇪 Alyah ⭐️:揭秘阿拉伯LLM方言鲁棒评估!
01-28 LLM 阿拉伯语 方言评估
[自动] [ARXIV]
4minschool MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥
01-27 LLM 模型评估 安全对齐
[自动] [HACKER_NEWS]
4minnewspaper ⚡️俄罗斯方块爆杀Opus!Gemini Flash胜率66%震撼实测🎮
01-27 LLM Gemini Flash Claude Opus