terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型训练

条目:85
2026年二月 77 篇
类型阅读条目
[自动] [ARXIV]
4minschool 数据集压缩至1MB:模型训练效率优化方法
02-28 数据集蒸馏 PLADA 模型训练
[自动] [JUEJIN]
2minsticky_note_2 深度学习激活函数原理与非线性机制解析
02-27 深度学习 激活函数 非线性
[自动] [BLOGS_PODCASTS]
3minmic 利用闲置算时将大模型训练速度提升一倍
02-27 LLM 训练效率 算力优化
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将大模型训练速度提高一倍且保持精度
02-27 LLM 训练加速 算力优化
[自动] [ARXIV]
5minschool GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体
02-27 GUI Agent 强化学习 RL
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将LLM训练速度提升一倍且保持精度
02-26 LLM 训练加速 算力优化
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将大模型训练速度提升一倍
02-26 LLM 训练加速 算力优化
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将大模型训练速度提升一倍的新方法
02-26 LLM 训练效率 算力优化
[自动] [BLOGS_PODCASTS]
2minmic 利用空闲计算时间将大模型训练速度提升一倍
02-26 LLM 模型训练 算力优化
[自动] [BLOGS_PODCASTS]
3minmic 利用闲置算力将大模型训练速度提升一倍
02-26 LLM 模型训练 算力优化
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算时将大模型训练速度翻倍且保持精度
02-26 LLM 模型训练 算力优化
[自动] [ARXIV]
5minschool 面向法语的ModernBERT多样性训练案例研究
02-26 ModernBERT 数据多样性 预训练
[自动] [HACKER_NEWS]
5minnewspaper 四个月图像视频VAE实验的经验总结
02-26 VAE 图像生成 视频生成
[自动] [HACKER_NEWS]
7minnewspaper 四个月图像视频VAE实验的技术总结与经验
02-26 VAE 视频生成 图像生成
[自动] [HACKER_NEWS]
5minnewspaper 四个月图像视频VAE实验的经验总结
02-25 VAE 视频生成 图像生成
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练
02-24 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速 AI 模型生产
02-24 SageMaker HyperPod AWS
[自动] [JUEJIN]
1minsticky_note_2 阿里云PAI升级全链路基础设施支持Qwen3.5
02-24 阿里云 Qwen3.5 PAI
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:弹性训练计划与推理性价比优化
02-24 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
5minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-24 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练与推理优化
02-24 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练
02-23 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:灵活训练计划与推理性价比提升
02-23 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]
4minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-23 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]
3minmic 使用Unsloth与Hugging Face Jobs免费训练AI模型
02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练
02-23 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025:弹性训练与推理优化
02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比提升
02-23 SageMaker 弹性训练 推理优化
[自动] [BLOGS_PODCASTS]
3minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比优化
02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-23 Amazon SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-22 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:灵活训练计划与推理性价比优化
02-22 SageMaker AWS 模型训练
[自动] [HACKER_NEWS]
6minnewspaper 误差随时间前向传播机制解析
02-22 误差传播 时间序列 前向传播
[自动] [HACKER_NEWS]
4minnewspaper 误差随时间前向传播机制解析
02-22 误差传播 前向传播 时间序列
[自动] [BLOGS_PODCASTS]
2minmic 合成人设技术突破数据瓶颈,加速日本AI开发
02-21 合成数据 数据增强 LLM
[自动] [BLOGS_PODCASTS]
4minmic 使用Unsloth和Hugging Face Jobs免费训练AI模型
02-21 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
3minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-21 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
5minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-21 Unsloth Hugging Face 模型训练
[自动] [BLOGS_PODCASTS]
4minmic 使用Unsloth和Hugging Face Jobs免费训练AI模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
3minmic 使用Unsloth与Hugging Face Jobs免费训练AI模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
5minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
3minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
3minmic 使用 Unsloth 与 Hugging Face Jobs 免费训练大模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
2minmic 合成人设技术突破数据瓶颈,加速日本AI开发
02-19 合成数据 数据瓶颈 日本AI
[自动] [HACKER_NEWS]
4minnewspaper LLM 数据集构建与模型训练优化指南
02-18 LLM 数据集构建 模型训练
[自动] [ARXIV]
4minschool 面向语言模型的在线上下文蒸馏方法
02-16 LLM 蒸馏 上下文学习
[自动] [JUEJIN]
2minsticky_note_2 大模型行为塑造:SFT与LoRA深度解析
02-15 SFT LoRA 微调
[自动] [BLOGS_PODCASTS]
3minmic microgpt:200行Python实现的零依赖GPT训练与推理
02-13 GPT LLM Python
[自动] [ARXIV]
4minschool 训练LRM模型:自适应反思与长度协调惩罚提升推理效率
02-13 LRM 推理效率 自适应反思
[自动] [ARXIV]
4minschool 长思维链监督微调中数据重复优于数据扩展
02-13 长思维链 监督微调 数据重复
[自动] [JUEJIN]
1minsticky_note_2 讯飞星火X2发布:纯国产算力大模型性能对标GPT
02-11 讯飞星火 国产算力 GPT
[自动] [HACKER_NEWS]
4minnewspaper The Little Learner:通往深度学习的直线路径
02-11 深度学习 机器学习 神经网络
[自动] [BLOGS_PODCASTS]
3minmic Scale LLM fine-tuning with Hugging Face and Amazon Sage
02-11 LLM 微调 Hugging Face
[自动] [ARXIV]
2minschool 面向AGI的数据科学与技术:分层数据管理
02-10 AGI LLM 数据管理
[自动] [ARXIV]
4minschool ARO:面向大模型矩阵优化的新视角
02-10 矩阵优化 ARO 大模型
[自动] [HACKER_NEWS]
5minnewspaper 微调Qwen2.5-7B模型基于百部电影构建概率故事图
02-08 Qwen2.5 微调 故事图
[自动] [ARXIV]
3minschool 数据中的阈下效应:基于对数线性性的通用机制
02-06 LLM 数据质量 Logit-Linear-Selection
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-05 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-05 文本生成图像 模型训练 消融实验
[自动] [ARXIV]
4minschool 利用权重更新稀疏性提升分布式强化学习通信效率
02-05 分布式强化学习 通信效率 权重稀疏性
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-05 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-04 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-04 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文生图模型训练设计:消融实验的经验总结
02-04 文生图 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文生图模型训练设计:消融实验的经验总结
02-04 文生图 模型训练 消融实验
[自动] [ARXIV]
4minschool 面向冲突目标的免奖励对齐方法
02-04 RACO 对齐 多目标优化
[自动] [ARXIV]
3minschool 训练LLM采用分治推理提升测试时扩展性
02-04 LLM 推理 强化学习
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-04 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-03 文本生成图像 模型训练 消融实验
[自动] [ARXIV]
4minschool 基于文本反馈扩展强化学习的能力
02-03 强化学习 RLHF 文本反馈
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-03 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-03 文本生成图像 模型训练 消融实验
[自动] [HACKER_NEWS]
3minnewspaper 训练万亿参数模型以生成幽默内容
02-03 LLM 万亿参数 幽默生成
[自动] [HACKER_NEWS]
3minnewspaper 训练万亿参数模型使其具备幽默感
02-03 LLM 幽默感 万亿参数
[自动] [ARXIV]
4minschool FineInstructions:将合成指令扩展至预训练规模
02-01 FineInstructions 合成数据 指令微调
2026年一月 8 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper Show HN: 训练900万参数语音模型修正普通话声调
01-31 语音模型 普通话 声调修正
[自动] [ARXIV]
4minschool FineInstructions:将合成指令数据扩展至预训练规模
01-30 LLM 预训练 指令微调
[自动] [ARXIV]
6minschool 为何Adam在$β_1=β_2$时更优:缺失的梯度尺度不变性原理
01-30 Adam优化器 梯度尺度不变性 深度学习
[自动] [BLOGS_PODCASTS]
3minmic 🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍!
01-28 强化学习 智能体 Llama
[自动] [ARXIV]
4minschool 🔥模型自学革命!突破可学习性边界,推理能力暴涨!
01-28 SOAR 强化学习 推理能力
[自动] [BLOGS_PODCASTS]
4minmic 揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥
01-27 Agentic RL 强化学习 GPT-OSS
[自动] [BLOGS_PODCASTS]
3minmic 🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥
01-27 强化学习 Agent GPT-OSS
[自动] [ARXIV]
4minschool 🤖反事实训练!让模型学会靠谱又可落地的解释!
01-25 反事实训练 模型解释性 可解释AI