目录
SFT
条目:18
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova强化微调原理、应用场景与实现路径解析 03-01
Amazon Nova
强化微调
RFT |
2026年二月
15 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、应用场景与实现指南 02-28
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调解析:基于反馈的 AI 定制原理与实践 02-28
Amazon Nova
RFT
强化微调 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova 强化微调原理:从评估学习到多轮智能体构建 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、场景与实现指南 02-27
Amazon Nova
强化微调
RFT |
[自动]
[ARXIV] | 5min | school
GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体 02-27
GUI Agent
强化学习
RL |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调指南:原理、场景与实现路径 02-26
Amazon Nova
RFT
强化微调 |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型行为塑造:SFT与LoRA深度解析 02-15
SFT
LoRA
微调 |
[自动]
[ARXIV] | 4min | school
长思维链监督微调中数据重复优于数据扩展 02-13
长思维链
监督微调
数据重复 |
[自动]
[ARXIV] | 3min | school
长思维链监督微调中数据重复优于数据扩展 02-12
长思维链
监督微调
数据重复 |
[自动]
[ARXIV] | 2min | school
Anagent For Enhancing Scientific Table & Figure Analysi 02-11
Anagent
多智能体
科学图表分析 |
[自动]
[ARXIV] | 4min | school
RE-TRAC:面向深度搜索智能体的递归轨迹压缩算法 02-04
Re-TRAC
深度搜索智能体
ReAct |
[自动]
[ARXIV] | 4min | school
RE-TRAC:面向深度搜索智能体的递归轨迹压缩方法 02-03
Re-TRAC
深度搜索
智能体 |
[自动]
[ARXIV] | 4min | school
RedSage:网络安全通用大语言模型 02-02
RedSage
网络安全
垂直领域模型 |
[自动]
[ARXIV] | 3min | school
推理大语言模型从被动求解转向主动询问 02-01
推理
交互式推理
PIR |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
RedSage:网络安全通用大模型 01-30
RedSage
网络安全
LLM |
[自动]
[ARXIV] | 5min | school
✨告别遗忘!Self-Distillation解锁持续学习新范式! 01-28
持续学习
Self-Distillation
灾难性遗忘 |
无匹配条目