terminal

AI Stack

rss_feed
SYS_STABLE
目录

AdamW

条目:7
2026年三月 5 篇
类型阅读条目
[自动] [ARXIV]
3minschool 神经优化器宽度缩放研究:行列归一化与超参数迁移
03-12 优化器 宽度缩放 AdamW
[自动] [ARXIV]
4minschool 神经优化器宽度缩放:行列归一化与超参迁移
03-11 优化器 宽度缩放 μP
[自动] [ARXIV]
4minschool POET-X:基于正交变换缩放的内存高效LLM训练方法
03-09 LLM 训练优化 内存优化
[自动] [ARXIV]
5minschool FlashOptim:面向大模型内存高效训练的优化器
03-02 FlashOptim 显存优化 训练优化器
[自动] [ARXIV]
4minschool FlashOptim:面向内存高效训练的优化器
03-01 FlashOptim 内存优化 训练优化器
2026年二月 2 篇
类型阅读条目
[自动] [ARXIV]
4minschool FlashOptim:面向内存高效训练的优化器
02-28 FlashOptim 大模型训练 显存优化
[自动] [ARXIV]
3minschool ARO: A New Lens On Matrix Optimization For Large Models
02-11 ARO 矩阵优化 LLM