目录
探索策略
条目:4
2026年二月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
Calibrate-Then-Act:面向大模型智能体的成本感知探索 02-20
LLM Agents
成本感知
CTA框架 |
[自动]
[ARXIV] | 5min | school
Calibrate-Then-Act:大模型智能体的成本感知探索 02-19
LLM Agents
成本感知
探索策略 |
[自动]
[ARXIV] | 5min | school
基于枢纽重采样的LLM强化学习深度密集探索 02-17
LLM
强化学习
RLHF |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
🔥POPE:用特权探索让AI学会解决复杂难题! 01-27
强化学习
LLM
推理能力 |
无匹配条目