目录
Adam
条目:3
2026年三月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
Adam为何优于SGD:二阶矩归一化产生更尖锐的尾部 03-04
优化算法
Adam
SGD |
[自动]
[ARXIV] | 4min | school
通过低秩近似优化大模型动量状态以降低显存占用 03-03
LoRA-Pre
低秩近似
优化器 |
[自动]
[ARXIV] | 5min | school
通过低秩近似优化大模型动量状态以降低显存占用 03-02
LoRA-Pre
低秩近似
优化器 |
无匹配条目