terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型微调

条目:44
2026年二月 34 篇
类型阅读条目
[自动] [ARXIV]
5minschool FlashOptim:面向内存高效训练的优化器
02-28 FlashOptim 大模型训练 显存优化
[自动] [HACKER_NEWS]
5minnewspaper Unsloth Dynamic 2.0 GGUFs 发布
02-28 Unsloth GGUF llama.cpp
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调解析:原理、应用场景与实现选项
02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调原理:从评估学习到多轮智能体构建
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调原理、应用场景与实现选项解析
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、场景与实现指南
02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]
4minschool 利用大模型生成判断数据提升应用商店排序相关性
02-27 LLM 搜索相关性 数据标注
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、应用场景与实现指南
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调解析:原理、应用场景与实现指南
02-26 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
5minmic 利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型
02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型
02-26 vLLM LoRA MoE
[自动] [ARXIV]
5minschool 为何Pass@k优化会降低Pass@1:大模型后训练中的提示干扰
02-25 LLM 后训练 代码生成
[自动] [BLOGS_PODCASTS]
3minmic 数十场中型发布会背后的共同主题:形成闭环
02-25 闭环 数据飞轮 合成数据
[自动] [HACKER_NEWS]
5minnewspaper Hugging Face Skills:基于技能的模型微调框架
02-25 Hugging Face 模型微调 Skills
[自动] [BLOGS_PODCASTS]
4minmic 2025年亚马逊SageMaker AI:增强可观测性与模型定制托管功能
02-24 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic 2025年Amazon SageMaker AI可观测性、模型定制与托管功能增强
02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI提升可观测性并优化模型定制与托管
02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic 使用 Unsloth 和 Hugging Face 免费训练 AI 模型
02-19 Unsloth Hugging Face 模型微调
[自动] [HACKER_NEWS]
4minnewspaper LLM上下文学习机制与性能优化指南
02-18 LLM 上下文学习 ICL
[自动] [BLOGS_PODCASTS]
2minmic Qwen3.5-397B-A17B:最小的高效Open-Opus级模型
02-17 Qwen3.5 Qwen MoE
[自动] [BLOGS_PODCASTS]
2minmic Codex与Claude支持定制化内核扩展
02-17 Codex Claude 定制化
[自动] [BLOGS_PODCASTS]
2minmic Codex 与 Claude 支持定制内核
02-16 Codex Claude 定制内核
[自动] [ARXIV]
4minschool 面向语言模型的在线上下文蒸馏方法
02-13 LLM 模型蒸馏 上下文学习
[自动] [BLOGS_PODCASTS]
2minmic Codex与Claude支持定制化内核
02-13 Codex Claude 定制化内核
[自动] [ARXIV]
6minschool CM2:基于清单奖励强化学习的多轮多步智能体工具调用
02-13 强化学习 Agent 工具调用
[自动] [BLOGS_PODCASTS]
2minmic Codex 与 Claude 支持构建自定义内核
02-13 Codex Claude 自定义内核
[自动] [HACKER_NEWS]
6minnewspaper 仅更换测试框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 基准测试
[自动] [ARXIV]
5minschool 共享LoRA子空间实现近乎严格的持续学习
02-08 LoRA 持续学习 灾难性遗忘
[自动] [ARXIV]
5minschool 共享 LoRA 子空间实现近乎严格的持续学习
02-07 LoRA 持续学习 灾难性遗忘
[自动] [HACKER_NEWS]
4minnewspaper Qwen3-Coder-Next:下一代代码模型架构与性能升级
02-04 Qwen 代码模型 架构升级
[自动] [HACKER_NEWS]
4minnewspaper Qwen3-Coder-Next:下一代代码模型架构与性能解析
02-04 Qwen3 代码模型 LLM
[自动] [ARXIV]
4minschool 无奖励对齐技术处理多目标冲突
02-03 RACO 对齐技术 多目标优化
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos策略发布:提升机器人控制精度
02-03 NVIDIA Cosmos 机器人
[自动] [ARXIV]
4minschool 智能体推理与工具使用的竞争:量化干扰与解调优
02-03 智能体 强化学习 工具使用
2026年一月 10 篇
类型阅读条目
[自动] [ARXIV]
4minschool 发现模型仓库中的隐藏价值
01-31 模型评估 Llama 多臂老虎机
[自动] [ARXIV]
4minschool 推理大模型从被动求解转向主动提问
01-30 推理模型 主动交互 思维链
[自动] [ARXIV]
4minschool 进化策略导致大语言模型出现灾难性遗忘
01-30 进化策略 灾难性遗忘 持续学习
[自动] [ARXIV]
4minschool 进化策略导致大语言模型出现灾难性遗忘
01-29 进化策略 灾难性遗忘 持续学习
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 如何防范 AI 代理点击链接时的数据外泄与提示注入
01-29 OpenAI AI Agent 提示注入
[自动] [BLOGS_PODCASTS]
3minmic 让 Claude 编写 CUDA 内核并指导开源模型
01-29 Claude CUDA 内核开发
[自动] [ARXIV]
5minschool ✨告别遗忘!Self-Distillation解锁持续学习新范式!
01-28 持续学习 Self-Distillation 灾难性遗忘
[自动] [BLOGS_PODCASTS]
2minmic GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀
01-28 GPT-OSS 强化学习 RL训练
[自动] [BLOGS_PODCASTS]
3minmic Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective
01-27 Agentic RL 强化学习 GPT-OSS
[自动] [ARXIV]
6minschool 🔥LLM序列标注新突破!揭秘高效策略,性能飙升!
01-27 LLM 序列标注 NLP