terminal

AI Stack

rss_feed
SYS_STABLE
目录

SFT

条目:18
2026年三月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova强化微调原理、应用场景与实现路径解析
03-01 Amazon Nova 强化微调 RFT
2026年二月 15 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、应用场景与实现指南
02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调解析:基于反馈的 AI 定制原理与实践
02-28 Amazon Nova RFT 强化微调
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调原理:从评估学习到多轮智能体构建
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调原理、应用场景与实现选项解析
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、场景与实现指南
02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]
5minschool GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体
02-27 GUI Agent 强化学习 RL
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调指南:原理、场景与实现路径
02-26 Amazon Nova RFT 强化微调
[自动] [JUEJIN]
2minsticky_note_2 大模型行为塑造:SFT与LoRA深度解析
02-15 SFT LoRA 微调
[自动] [ARXIV]
4minschool 长思维链监督微调中数据重复优于数据扩展
02-13 长思维链 监督微调 数据重复
[自动] [ARXIV]
3minschool 长思维链监督微调中数据重复优于数据扩展
02-12 长思维链 监督微调 数据重复
[自动] [ARXIV]
2minschool Anagent For Enhancing Scientific Table & Figure Analysi
02-11 Anagent 多智能体 科学图表分析
[自动] [ARXIV]
4minschool RE-TRAC:面向深度搜索智能体的递归轨迹压缩算法
02-04 Re-TRAC 深度搜索智能体 ReAct
[自动] [ARXIV]
4minschool RE-TRAC:面向深度搜索智能体的递归轨迹压缩方法
02-03 Re-TRAC 深度搜索 智能体
[自动] [ARXIV]
4minschool RedSage:网络安全通用大语言模型
02-02 RedSage 网络安全 垂直领域模型
[自动] [ARXIV]
3minschool 推理大语言模型从被动求解转向主动询问
02-01 推理 交互式推理 PIR
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
5minschool RedSage:网络安全通用大模型
01-30 RedSage 网络安全 LLM
[自动] [ARXIV]
5minschool ✨告别遗忘!Self-Distillation解锁持续学习新范式!
01-28 持续学习 Self-Distillation 灾难性遗忘