目录
AdamW
条目:7
2026年三月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
神经优化器宽度缩放研究:行列归一化与超参数迁移 03-12
优化器
宽度缩放
AdamW |
[自动]
[ARXIV] | 4min | school
神经优化器宽度缩放:行列归一化与超参迁移 03-11
优化器
宽度缩放
μP |
[自动]
[ARXIV] | 4min | school
POET-X:基于正交变换缩放的内存高效LLM训练方法 03-09
LLM
训练优化
内存优化 |
[自动]
[ARXIV] | 5min | school
FlashOptim:面向大模型内存高效训练的优化器 03-02
FlashOptim
显存优化
训练优化器 |
[自动]
[ARXIV] | 4min | school
FlashOptim:面向内存高效训练的优化器 03-01
FlashOptim
内存优化
训练优化器 |
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
FlashOptim:面向内存高效训练的优化器 02-28
FlashOptim
大模型训练
显存优化 |
[自动]
[ARXIV] | 3min | school
ARO: A New Lens On Matrix Optimization For Large Models 02-11
ARO
矩阵优化
LLM |
无匹配条目