AI Stack 探索 AI 技术前沿，分享深度思考与实践

条目: 1987
延迟: —
最新内容: 2026-07-15 14:00; 非站点部署时间
当前时间: --:--:--

首页归档搜索标签 AI史塔克关于

TAGS / TERM

奖励函数

共 4 篇

使用Lambda设计Amazon Nova模型的奖励函数指南 2026-04-13 · BLOGS_PODCASTS
Amazon Nova 强化微调：原理、应用场景与实现指南 2026-02-26 · BLOGS_PODCASTS
Agent World Model：面向智能体强化学习的无限合成环境 2026-02-11 · ARXIV
研究揭示RLHF如何加剧大模型谄媚行为 2026-02-03 · ARXIV