模型微调

条目：44

2026年二月 34 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school FlashOptim：面向内存高效训练的优化器 02-28 FlashOptim 大模型训练显存优化
[自动] [HACKER_NEWS]	5min	newspaper Unsloth Dynamic 2.0 GGUFs 发布 02-28 Unsloth GGUF llama.cpp
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调解析：原理、应用场景与实现选项 02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调原理：从评估学习到多轮智能体构建 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调：原理、场景与实现指南 02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]	4min	school 利用大模型生成判断数据提升应用商店排序相关性 02-27 LLM 搜索相关性数据标注
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调：原理、应用场景与实现指南 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调解析：原理、应用场景与实现指南 02-26 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	5min	mic 利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型 02-26 vLLM LoRA MoE
[自动] [ARXIV]	5min	school 为何Pass@k优化会降低Pass@1：大模型后训练中的提示干扰 02-25 LLM 后训练代码生成
[自动] [BLOGS_PODCASTS]	3min	mic 数十场中型发布会背后的共同主题：形成闭环 02-25 闭环数据飞轮合成数据
[自动] [HACKER_NEWS]	5min	newspaper Hugging Face Skills：基于技能的模型微调框架 02-25 Hugging Face 模型微调 Skills
[自动] [BLOGS_PODCASTS]	4min	mic 2025年亚马逊SageMaker AI：增强可观测性与模型定制托管功能 02-24 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic 2025年Amazon SageMaker AI可观测性、模型定制与托管功能增强 02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI提升可观测性并优化模型定制与托管 02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic 使用 Unsloth 和 Hugging Face 免费训练 AI 模型 02-19 Unsloth Hugging Face 模型微调
[自动] [HACKER_NEWS]	4min	newspaper LLM上下文学习机制与性能优化指南 02-18 LLM 上下文学习 ICL
[自动] [BLOGS_PODCASTS]	2min	mic Qwen3.5-397B-A17B：最小的高效Open-Opus级模型 02-17 Qwen3.5 Qwen MoE
[自动] [BLOGS_PODCASTS]	2min	mic Codex与Claude支持定制化内核扩展 02-17 Codex Claude 定制化
[自动] [BLOGS_PODCASTS]	2min	mic Codex 与 Claude 支持定制内核 02-16 Codex Claude 定制内核
[自动] [ARXIV]	4min	school 面向语言模型的在线上下文蒸馏方法 02-13 LLM 模型蒸馏上下文学习
[自动] [BLOGS_PODCASTS]	2min	mic Codex与Claude支持定制化内核 02-13 Codex Claude 定制化内核
[自动] [ARXIV]	6min	school CM2：基于清单奖励强化学习的多轮多步智能体工具调用 02-13 强化学习 Agent 工具调用
[自动] [BLOGS_PODCASTS]	2min	mic Codex 与 Claude 支持构建自定义内核 02-13 Codex Claude 自定义内核
[自动] [HACKER_NEWS]	6min	newspaper 仅更换测试框架，一下午提升15个大模型代码能力 02-13 LLM 代码生成基准测试
[自动] [ARXIV]	5min	school 共享LoRA子空间实现近乎严格的持续学习 02-08 LoRA 持续学习灾难性遗忘
[自动] [ARXIV]	5min	school 共享 LoRA 子空间实现近乎严格的持续学习 02-07 LoRA 持续学习灾难性遗忘
[自动] [HACKER_NEWS]	4min	newspaper Qwen3-Coder-Next：下一代代码模型架构与性能升级 02-04 Qwen 代码模型架构升级
[自动] [HACKER_NEWS]	4min	newspaper Qwen3-Coder-Next：下一代代码模型架构与性能解析 02-04 Qwen3 代码模型 LLM
[自动] [ARXIV]	4min	school 无奖励对齐技术处理多目标冲突 02-03 RACO 对齐技术多目标优化
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略发布：提升机器人控制精度 02-03 NVIDIA Cosmos 机器人
[自动] [ARXIV]	4min	school 智能体推理与工具使用的竞争：量化干扰与解调优 02-03 智能体强化学习工具使用

2026年一月 10 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 发现模型仓库中的隐藏价值 01-31 模型评估 Llama 多臂老虎机
[自动] [ARXIV]	4min	school 推理大模型从被动求解转向主动提问 01-30 推理模型主动交互思维链
[自动] [ARXIV]	4min	school 进化策略导致大语言模型出现灾难性遗忘 01-30 进化策略灾难性遗忘持续学习
[自动] [ARXIV]	4min	school 进化策略导致大语言模型出现灾难性遗忘 01-29 进化策略灾难性遗忘持续学习
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI 如何防范 AI 代理点击链接时的数据外泄与提示注入 01-29 OpenAI AI Agent 提示注入
[自动] [BLOGS_PODCASTS]	3min	mic 让 Claude 编写 CUDA 内核并指导开源模型 01-29 Claude CUDA 内核开发
[自动] [ARXIV]	5min	school ✨告别遗忘！Self-Distillation解锁持续学习新范式！ 01-28 持续学习 Self-Distillation 灾难性遗忘
[自动] [BLOGS_PODCASTS]	2min	mic GPT-OSS实战复盘：解锁Agentic RL训练的突破性路径！🚀 01-28 GPT-OSS 强化学习 RL训练
[自动] [BLOGS_PODCASTS]	3min	mic Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [ARXIV]	6min	school 🔥LLM序列标注新突破！揭秘高效策略，性能飙升！ 01-27 LLM 序列标注 NLP