目录
模型训练
条目:85
2026年二月
77 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
数据集压缩至1MB:模型训练效率优化方法 02-28
数据集蒸馏
PLADA
模型训练 |
[自动]
[JUEJIN] | 2min | sticky_note_2
深度学习激活函数原理与非线性机制解析 02-27
深度学习
激活函数
非线性 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用闲置算时将大模型训练速度提升一倍 02-27
LLM
训练效率
算力优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将大模型训练速度提高一倍且保持精度 02-27
LLM
训练加速
算力优化 |
[自动]
[ARXIV] | 5min | school
GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体 02-27
GUI Agent
强化学习
RL |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将LLM训练速度提升一倍且保持精度 02-26
LLM
训练加速
算力优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将大模型训练速度提升一倍 02-26
LLM
训练加速
算力优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将大模型训练速度提升一倍的新方法 02-26
LLM
训练效率
算力优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用空闲计算时间将大模型训练速度提升一倍 02-26
LLM
模型训练
算力优化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用闲置算力将大模型训练速度提升一倍 02-26
LLM
模型训练
算力优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算时将大模型训练速度翻倍且保持精度 02-26
LLM
模型训练
算力优化 |
[自动]
[ARXIV] | 5min | school
面向法语的ModernBERT多样性训练案例研究 02-26
ModernBERT
数据多样性
预训练 |
[自动]
[HACKER_NEWS] | 5min | newspaper
四个月图像视频VAE实验的经验总结 02-26
VAE
图像生成
视频生成 |
[自动]
[HACKER_NEWS] | 7min | newspaper
四个月图像视频VAE实验的技术总结与经验 02-26
VAE
视频生成
图像生成 |
[自动]
[HACKER_NEWS] | 5min | newspaper
四个月图像视频VAE实验的经验总结 02-25
VAE
视频生成
图像生成 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-24
AWS
SageMaker
HyperPod |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速 AI 模型生产 02-24
SageMaker
HyperPod
AWS |
[自动]
[JUEJIN] | 1min | sticky_note_2
阿里云PAI升级全链路基础设施支持Qwen3.5 02-24
阿里云
Qwen3.5
PAI |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2025年Amazon SageMaker AI回顾:弹性训练计划与推理性价比优化 02-24
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-24
Unsloth
Hugging Face
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练与推理优化 02-24
SageMaker
AWS
模型训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-23
AWS
SageMaker
HyperPod |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2025年Amazon SageMaker AI回顾:灵活训练计划与推理性价比提升 02-23
SageMaker
AWS
模型训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23
Unsloth
Hugging Face
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用Unsloth与Hugging Face Jobs免费训练AI模型 02-23
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-23
AWS
SageMaker
HyperPod |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025:弹性训练与推理优化 02-23
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年回顾:SageMaker AI弹性训练计划与推理性价比提升 02-23
SageMaker
弹性训练
推理优化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比优化 02-23
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升 02-23
Amazon SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-22
Unsloth
Hugging Face
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:灵活训练计划与推理性价比优化 02-22
SageMaker
AWS
模型训练 |
[自动]
[HACKER_NEWS] | 6min | newspaper
误差随时间前向传播机制解析 02-22
误差传播
时间序列
前向传播 |
[自动]
[HACKER_NEWS] | 4min | newspaper
误差随时间前向传播机制解析 02-22
误差传播
前向传播
时间序列 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
合成人设技术突破数据瓶颈,加速日本AI开发 02-21
合成数据
数据增强
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用Unsloth和Hugging Face Jobs免费训练AI模型 02-21
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升 02-21
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-21
Unsloth
Hugging Face
模型训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用Unsloth和Hugging Face Jobs免费训练AI模型 02-20
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用Unsloth与Hugging Face Jobs免费训练AI模型 02-20
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-20
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-20
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练大模型 02-20
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
合成人设技术突破数据瓶颈,加速日本AI开发 02-19
合成数据
数据瓶颈
日本AI |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM 数据集构建与模型训练优化指南 02-18
LLM
数据集构建
模型训练 |
[自动]
[ARXIV] | 4min | school
面向语言模型的在线上下文蒸馏方法 02-16
LLM
蒸馏
上下文学习 |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型行为塑造:SFT与LoRA深度解析 02-15
SFT
LoRA
微调 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
microgpt:200行Python实现的零依赖GPT训练与推理 02-13
GPT
LLM
Python |
[自动]
[ARXIV] | 4min | school
训练LRM模型:自适应反思与长度协调惩罚提升推理效率 02-13
LRM
推理效率
自适应反思 |
[自动]
[ARXIV] | 4min | school
长思维链监督微调中数据重复优于数据扩展 02-13
长思维链
监督微调
数据重复 |
[自动]
[JUEJIN] | 1min | sticky_note_2
讯飞星火X2发布:纯国产算力大模型性能对标GPT 02-11
讯飞星火
国产算力
GPT |
[自动]
[HACKER_NEWS] | 4min | newspaper
The Little Learner:通往深度学习的直线路径 02-11
深度学习
机器学习
神经网络 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Scale LLM fine-tuning with Hugging Face and Amazon Sage 02-11
LLM
微调
Hugging Face |
[自动]
[ARXIV] | 2min | school
面向AGI的数据科学与技术:分层数据管理 02-10
AGI
LLM
数据管理 |
[自动]
[ARXIV] | 4min | school
ARO:面向大模型矩阵优化的新视角 02-10
矩阵优化
ARO
大模型 |
[自动]
[HACKER_NEWS] | 5min | newspaper
微调Qwen2.5-7B模型基于百部电影构建概率故事图 02-08
Qwen2.5
微调
故事图 |
[自动]
[ARXIV] | 3min | school
数据中的阈下效应:基于对数线性性的通用机制 02-06
LLM
数据质量
Logit-Linear-Selection |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-05
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-05
文本生成图像
模型训练
消融实验 |
[自动]
[ARXIV] | 4min | school
利用权重更新稀疏性提升分布式强化学习通信效率 02-05
分布式强化学习
通信效率
权重稀疏性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-05
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-04
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-04
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文生图模型训练设计:消融实验的经验总结 02-04
文生图
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文生图模型训练设计:消融实验的经验总结 02-04
文生图
模型训练
消融实验 |
[自动]
[ARXIV] | 4min | school
面向冲突目标的免奖励对齐方法 02-04
RACO
对齐
多目标优化 |
[自动]
[ARXIV] | 3min | school
训练LLM采用分治推理提升测试时扩展性 02-04
LLM
推理
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-04
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-03
文本生成图像
模型训练
消融实验 |
[自动]
[ARXIV] | 4min | school
基于文本反馈扩展强化学习的能力 02-03
强化学习
RLHF
文本反馈 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-03
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-03
文本生成图像
模型训练
消融实验 |
[自动]
[HACKER_NEWS] | 3min | newspaper
训练万亿参数模型以生成幽默内容 02-03
LLM
万亿参数
幽默生成 |
[自动]
[HACKER_NEWS] | 3min | newspaper
训练万亿参数模型使其具备幽默感 02-03
LLM
幽默感
万亿参数 |
[自动]
[ARXIV] | 4min | school
FineInstructions:将合成指令扩展至预训练规模 02-01
FineInstructions
合成数据
指令微调 |
2026年一月
8 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
Show HN: 训练900万参数语音模型修正普通话声调 01-31
语音模型
普通话
声调修正 |
[自动]
[ARXIV] | 4min | school
FineInstructions:将合成指令数据扩展至预训练规模 01-30
LLM
预训练
指令微调 |
[自动]
[ARXIV] | 6min | school
为何Adam在$β_1=β_2$时更优:缺失的梯度尺度不变性原理 01-30
Adam优化器
梯度尺度不变性
深度学习 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍! 01-28
强化学习
智能体
Llama |
[自动]
[ARXIV] | 4min | school
🔥模型自学革命!突破可学习性边界,推理能力暴涨! 01-28
SOAR
强化学习
推理能力 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥 01-27
强化学习
Agent
GPT-OSS |
[自动]
[ARXIV] | 4min | school
🤖反事实训练!让模型学会靠谱又可落地的解释! 01-25
反事实训练
模型解释性
可解释AI |
无匹配条目