探索策略

条目：4

2026年二月 3 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school Calibrate-Then-Act：面向大模型智能体的成本感知探索 02-20 LLM Agents 成本感知 CTA框架
[自动] [ARXIV]	5min	school Calibrate-Then-Act：大模型智能体的成本感知探索 02-19 LLM Agents 成本感知探索策略
[自动] [ARXIV]	5min	school 基于枢纽重采样的LLM强化学习深度密集探索 02-17 LLM 强化学习 RLHF

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 🔥POPE：用特权探索让AI学会解决复杂难题！ 01-27 强化学习 LLM 推理能力