目录
优化器
条目:9
2026年三月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
MUD优化器通过动量去相关加速Transformer训练 03-19
优化器
动量去相关
白化 |
[自动]
[ARXIV] | 3min | school
神经优化器宽度缩放研究:行列归一化与超参数迁移 03-12
优化器
宽度缩放
AdamW |
[自动]
[ARXIV] | 4min | school
神经优化器宽度缩放:行列归一化与超参迁移 03-11
优化器
宽度缩放
μP |
[自动]
[ARXIV] | 4min | school
通过低秩近似优化大模型动量状态以降低显存占用 03-03
LoRA-Pre
低秩近似
优化器 |
[自动]
[ARXIV] | 5min | school
通过低秩近似优化大模型动量状态以降低显存占用 03-02
LoRA-Pre
低秩近似
优化器 |
2026年二月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
ARO: A New Lens On Matrix Optimization For Large Models 02-11
ARO
矩阵优化
LLM |
[自动]
[ARXIV] | 5min | school
TEON:张量化正交化方法优化大语言模型预训练 02-03
TEON
优化器
预训练 |
[自动]
[ARXIV] | 5min | school
TEON:张量化正交化技术优化大语言模型预训练 02-02
TEON
优化器
Muon |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
FISMO:基于Fisher结构的动量正交化优化器 01-30
FISMO
优化器
深度学习 |
无匹配条目