模型训练

条目：85

2026年二月 77 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 数据集压缩至1MB：模型训练效率优化方法 02-28 数据集蒸馏 PLADA 模型训练
[自动] [JUEJIN]	2min	sticky_note_2 深度学习激活函数原理与非线性机制解析 02-27 深度学习激活函数非线性
[自动] [BLOGS_PODCASTS]	3min	mic 利用闲置算时将大模型训练速度提升一倍 02-27 LLM 训练效率算力优化
[自动] [BLOGS_PODCASTS]	2min	mic 利用闲置算力将大模型训练速度提高一倍且保持精度 02-27 LLM 训练加速算力优化
[自动] [ARXIV]	5min	school GUI-Libra：动作感知监督与可验证强化学习的原生GUI智能体 02-27 GUI Agent 强化学习 RL
[自动] [BLOGS_PODCASTS]	2min	mic 利用闲置算力将LLM训练速度提升一倍且保持精度 02-26 LLM 训练加速算力优化
[自动] [BLOGS_PODCASTS]	2min	mic 利用闲置算力将大模型训练速度提升一倍 02-26 LLM 训练加速算力优化
[自动] [BLOGS_PODCASTS]	2min	mic 利用闲置算力将大模型训练速度提升一倍的新方法 02-26 LLM 训练效率算力优化
[自动] [BLOGS_PODCASTS]	2min	mic 利用空闲计算时间将大模型训练速度提升一倍 02-26 LLM 模型训练算力优化
[自动] [BLOGS_PODCASTS]	3min	mic 利用闲置算力将大模型训练速度提升一倍 02-26 LLM 模型训练算力优化
[自动] [BLOGS_PODCASTS]	2min	mic 利用闲置算时将大模型训练速度翻倍且保持精度 02-26 LLM 模型训练算力优化
[自动] [ARXIV]	5min	school 面向法语的ModernBERT多样性训练案例研究 02-26 ModernBERT 数据多样性预训练
[自动] [HACKER_NEWS]	5min	newspaper 四个月图像视频VAE实验的经验总结 02-26 VAE 图像生成视频生成
[自动] [HACKER_NEWS]	7min	newspaper 四个月图像视频VAE实验的技术总结与经验 02-26 VAE 视频生成图像生成
[自动] [HACKER_NEWS]	5min	newspaper 四个月图像视频VAE实验的经验总结 02-25 VAE 视频生成图像生成
[自动] [BLOGS_PODCASTS]	4min	mic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-24 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]	4min	mic Hexagon 利用 SageMaker HyperPod 加速 AI 模型生产 02-24 SageMaker HyperPod AWS
[自动] [JUEJIN]	1min	sticky_note_2 阿里云PAI升级全链路基础设施支持Qwen3.5 02-24 阿里云 Qwen3.5 PAI
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：弹性训练计划与推理性价比优化 02-24 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	5min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-24 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练与推理优化 02-24 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]	4min	mic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-23 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：灵活训练计划与推理性价比提升 02-23 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]	4min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]	3min	mic 使用Unsloth与Hugging Face Jobs免费训练AI模型 02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	4min	mic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-23 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025：弹性训练与推理优化 02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比提升 02-23 SageMaker 弹性训练推理优化
[自动] [BLOGS_PODCASTS]	3min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比优化 02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-23 Amazon SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-22 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：灵活训练计划与推理性价比优化 02-22 SageMaker AWS 模型训练
[自动] [HACKER_NEWS]	6min	newspaper 误差随时间前向传播机制解析 02-22 误差传播时间序列前向传播
[自动] [HACKER_NEWS]	4min	newspaper 误差随时间前向传播机制解析 02-22 误差传播前向传播时间序列
[自动] [BLOGS_PODCASTS]	2min	mic 合成人设技术突破数据瓶颈，加速日本AI开发 02-21 合成数据数据增强 LLM
[自动] [BLOGS_PODCASTS]	4min	mic 使用Unsloth和Hugging Face Jobs免费训练AI模型 02-21 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	3min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-21 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	5min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-21 Unsloth Hugging Face 模型训练
[自动] [BLOGS_PODCASTS]	4min	mic 使用Unsloth和Hugging Face Jobs免费训练AI模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	3min	mic 使用Unsloth与Hugging Face Jobs免费训练AI模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	5min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	3min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	3min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练大模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	2min	mic 合成人设技术突破数据瓶颈，加速日本AI开发 02-19 合成数据数据瓶颈日本AI
[自动] [HACKER_NEWS]	4min	newspaper LLM 数据集构建与模型训练优化指南 02-18 LLM 数据集构建模型训练
[自动] [ARXIV]	4min	school 面向语言模型的在线上下文蒸馏方法 02-16 LLM 蒸馏上下文学习
[自动] [JUEJIN]	2min	sticky_note_2 大模型行为塑造：SFT与LoRA深度解析 02-15 SFT LoRA 微调
[自动] [BLOGS_PODCASTS]	3min	mic microgpt：200行Python实现的零依赖GPT训练与推理 02-13 GPT LLM Python
[自动] [ARXIV]	4min	school 训练LRM模型：自适应反思与长度协调惩罚提升推理效率 02-13 LRM 推理效率自适应反思
[自动] [ARXIV]	4min	school 长思维链监督微调中数据重复优于数据扩展 02-13 长思维链监督微调数据重复
[自动] [JUEJIN]	1min	sticky_note_2 讯飞星火X2发布：纯国产算力大模型性能对标GPT 02-11 讯飞星火国产算力 GPT
[自动] [HACKER_NEWS]	4min	newspaper The Little Learner：通往深度学习的直线路径 02-11 深度学习机器学习神经网络
[自动] [BLOGS_PODCASTS]	3min	mic Scale LLM fine-tuning with Hugging Face and Amazon Sage 02-11 LLM 微调 Hugging Face
[自动] [ARXIV]	2min	school 面向AGI的数据科学与技术：分层数据管理 02-10 AGI LLM 数据管理
[自动] [ARXIV]	4min	school ARO：面向大模型矩阵优化的新视角 02-10 矩阵优化 ARO 大模型
[自动] [HACKER_NEWS]	5min	newspaper 微调Qwen2.5-7B模型基于百部电影构建概率故事图 02-08 Qwen2.5 微调故事图
[自动] [ARXIV]	3min	school 数据中的阈下效应：基于对数线性性的通用机制 02-06 LLM 数据质量 Logit-Linear-Selection
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-05 文本生成图像模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-05 文本生成图像模型训练消融实验
[自动] [ARXIV]	4min	school 利用权重更新稀疏性提升分布式强化学习通信效率 02-05 分布式强化学习通信效率权重稀疏性
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-05 文本生成图像模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-04 文本生成图像模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-04 文本生成图像模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文生图模型训练设计：消融实验的经验总结 02-04 文生图模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文生图模型训练设计：消融实验的经验总结 02-04 文生图模型训练消融实验
[自动] [ARXIV]	4min	school 面向冲突目标的免奖励对齐方法 02-04 RACO 对齐多目标优化
[自动] [ARXIV]	3min	school 训练LLM采用分治推理提升测试时扩展性 02-04 LLM 推理强化学习
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-04 文本生成图像模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-03 文本生成图像模型训练消融实验
[自动] [ARXIV]	4min	school 基于文本反馈扩展强化学习的能力 02-03 强化学习 RLHF 文本反馈
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-03 文本生成图像模型训练消融实验
[自动] [BLOGS_PODCASTS]	2min	mic 文本生成图像模型训练设计：消融实验的经验总结 02-03 文本生成图像模型训练消融实验
[自动] [HACKER_NEWS]	3min	newspaper 训练万亿参数模型以生成幽默内容 02-03 LLM 万亿参数幽默生成
[自动] [HACKER_NEWS]	3min	newspaper 训练万亿参数模型使其具备幽默感 02-03 LLM 幽默感万亿参数
[自动] [ARXIV]	4min	school FineInstructions：将合成指令扩展至预训练规模 02-01 FineInstructions 合成数据指令微调

2026年一月 8 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper Show HN: 训练900万参数语音模型修正普通话声调 01-31 语音模型普通话声调修正
[自动] [ARXIV]	4min	school FineInstructions：将合成指令数据扩展至预训练规模 01-30 LLM 预训练指令微调
[自动] [ARXIV]	6min	school 为何Adam在$β_1=β_2$时更优：缺失的梯度尺度不变性原理 01-30 Adam优化器梯度尺度不变性深度学习
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama
[自动] [ARXIV]	4min	school 🔥模型自学革命！突破可学习性边界，推理能力暴涨！ 01-28 SOAR 强化学习推理能力
[自动] [BLOGS_PODCASTS]	4min	mic 揭秘Agentic RL训练！GPT-OSS实战回顾，核心干货🔥 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [BLOGS_PODCASTS]	3min	mic 🚀GPT-OSS智能体RL训练解密！从0到1实战复盘🔥 01-27 强化学习 Agent GPT-OSS
[自动] [ARXIV]	4min	school 🤖反事实训练！让模型学会靠谱又可落地的解释！ 01-25 反事实训练模型解释性可解释AI