terminal

AI Stack

rss_feed
SYS_STABLE
目录

策略优化

条目:9
2026年四月 1 篇
类型阅读条目
[自动] [ARXIV]
1minschool 代理多模态模型的元认知工具使用策略
04-12 多模态模型 工具调用 元认知
2026年三月 4 篇
类型阅读条目
[自动] [ARXIV]
3minschool RoboPocket:利用手机即时优化机器人控制策略
03-09 机器人 模仿学习 RoboPocket
[自动] [ARXIV]
3minschool RoboPocket:利用手机即时优化机器人策略
03-08 机器人 模仿学习 RoboPocket
[自动] [ARXIV]
3minschool RoboPocket:利用手机即时优化机器人控制策略
03-07 机器人 模仿学习 RoboPocket
[自动] [ARXIV]
4minschool RoboPocket:利用手机即时优化机器人策略
03-06 机器人 模仿学习 RoboPocket
2026年二月 4 篇
类型阅读条目
[自动] [ARXIV]
3minschool 用于软优势策略优化的平滑门函数
02-24 强化学习 GRPO SAPO
[自动] [ARXIV]
4minschool Soft Sequence Policy Optimization:连接GMPO与SAPO
02-24 SSPO LLM对齐 强化学习
[自动] [ARXIV]
4minschool 受限群组相对策略优化
02-06 GRPO 强化学习 策略优化
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习