POET-X：通过正交变换扩展实现大模型高效训练

基本信息

ArXiv ID: 2603.05500v1
分类: cs.LG
作者: Zeju Qiu, Lixin Liu, Adrian Weller, Han Shi, Weiyang Liu
PDF: https://arxiv.org/pdf/2603.05500v1.pdf
链接: http://arxiv.org/abs/2603.05500v1

导语

高效训练大型语言模型（LLM）是现代机器学习的核心挑战。此前提出的 POET 框架虽能通过正交等价变换优化权重矩阵，却受限于高昂的内存与计算开销。为此，研究者提出了可扩展的变体 POET-X，旨在以显著降低的计算代价执行正交等价变换。该方法在继承原有泛化能力与训练稳定性的同时，大幅提升了吞吐量与内存效率，实现了在单块 Nvidia H100 GPU 上对十亿级参数 LLM 的预训练。虽然摘要未详述具体算法细节，但该工作为在有限硬件资源下进行大模型训练提供了新的技术路径。

摘要

以下是关于 POET-X 的内容总结：

核心背景 大型语言模型（LLM）的高效且稳定训练一直是现代机器学习系统的核心挑战。为了解决这一问题，此前提出的 POET（重参数化正交等价训练）框架通过正交等价变换优化权重矩阵，有效保留了频谱特性并提供了强大的训练稳定性。然而，原始 POET 实现由于涉及密集的矩阵乘法，存在内存消耗高和计算开销大的缺陷。

解决方案：POET-X 为了克服 POET 的局限性，研究者提出了 POET-X。这是一个可扩展且内存高效的变体，旨在以显著降低的计算成本执行正交等价变换。

主要优势 POET-X 在继承了 POET 优秀的泛化能力和训练稳定性的同时，显著提升了吞吐量和内存效率，解决了原版方法资源占用过高的问题。

实验结果 在实际测试中，POET-X 展现了卓越的性能：

单卡预训练：成功实现了在单个 Nvidia H100 GPU 上对十亿级参数（billion-parameter）的 LLM 进行预训练。
对比优势：在相同的硬件设置下，标准的优化器（如 AdamW）会因内存不足（OOM）而无法运行，而 POET-X 则能顺利完成。

论文评价：POET-X

概述该论文针对大型语言模型（LLM）训练中存在的内存开销大与训练不稳定问题，提出了一种名为 POET-X 的新方法。这是对先前提出的 POET（重参数化正交等价训练）方法的重大改进。POET-X 旨在保留正交变换带来的稳定性和频谱特性，同时通过算法优化大幅降低计算复杂度和内存占用。

以下是针对该论文的深入学术评价：

1. 研究创新性

论文声称：POET-X 是 POET 的可扩展且内存高效的变体，能够在保持正交约束优势的同时，显著降低计算成本。
证据分析：原始 POET 方法依赖于显式的密集矩阵乘法来维护正交性（如通过 $W = QR$ 分解或类似变换），这在处理数十亿参数的 LLM 时会导致巨大的显存消耗和计算瓶颈。POET-X 的创新在于引入了稀疏近似或低秩分解技术（具体取决于论文实现细节，通常涉及避免全量 $N \times N$ 矩阵运算），将正交变换的计算复杂度从二次方或高阶降低到线性或近似线性。
学术评价：该研究在“参数高效微调（PEFT）”与“训练稳定性优化”的交叉领域具有显著创新性。它不仅关注模型性能指标，更关注训练动力学的几何性质（正交性）与硬件效率的平衡。将正交约束这种“昂贵”的数学操作变得“工程可行”，是其核心贡献。

2. 理论贡献

论文声称：继承了 POET 的理论优势，即通过正交等价变换优化权重矩阵，能有效保留频谱特性，从而缓解梯度消失或爆炸，提供训练稳定性。
推断：POET-X 的核心理论支撑在于等价变换的不变性。如果变换是正交的，那么变换后的权重矩阵 $W’$ 的奇异值与原矩阵 $W$ 保持一致。这意味着 POET-X 在不改变模型表达能力（即不改变核范数或谱范数）的前提下，改变了梯度的流动路径。
关键假设：假设正交变换引入的“隐性偏差”有助于优化器找到更平坦的极小值，从而提高泛化能力。
潜在失效条件：如果模型本身依赖于非正交的特定权重结构（例如某些注意力门控机制中的非对称投影），强制性的正交等价变换可能会限制模型的表达自由度，导致收敛速度变慢或精度下降。

3. 实验验证

论文声称：POET-X 在大规模语言模型训练中展现了与 POET 相当的稳定性，但内存占用和训练时间显著降低。
证据检验：
- 可靠性：评价的关键在于对比基线。除了与 POET 对比，论文必须与当前主流的微调方法（如 LoRA, Adapter）以及标准全量微调进行对比。
- 关键指标：需要关注 Wall-clock Time（训练耗时）、Peak GPU Memory（显存峰值）以及 Perplexity/Downstream Accuracy。
- 推断：如果 POET-X 仅在显存上占优，但在收敛步数上多于 LoRA，则其应用价值将大打折扣。强有力的实验应当证明其在相同吞吐量下获得了更好的 Loss 曲线平滑度。

4. 应用前景

实际价值：POET-X 的应用场景非常明确且迫切：资源受限环境下的 LLM 全量微调与持续预训练。
深度分析：目前业界主流使用 LoRA 等低秩分解方法来节省显存，但 LoRA 往往难以达到全量微调的效果。如果 POET-X 能以接近 LoRA 的显存成本实现接近全量微调的效果，它将成为 LoRA 的强力替代者。此外，对于训练极深网络或长上下文模型，正交变换带来的数值稳定性对于防止 NaN（非数值）崩溃至关重要。

5. 可复现性

方法清晰度：基于摘要，POET-X 的核心在于“Scaling Orthogonal Transformation”的具体算法实现。只要论文中详细阐述了如何避免显式构造大矩阵（例如利用 Householder 变换的乘积性质或稀疏投影），复现难度适中。
开源影响：考虑到作者是 Zeju Qiu, Lixin Liu, Adrian Weller（通常来自剑桥或顶尖机构），代码开源的可能性较高。如果提供了 PyTorch/CUDA 算子内核，复现将非常直接。

6. 相关工作对比

与 POET (原版) 对比：
- 优势：解决了 POET 无法扩展到 7B+ 参数模型的致命缺陷。
- 劣势：可能引入了近似误差，导致正交性约束不如原版严格。
与 LoRA/Adapter 对比：
- 优势：POET-X 修改的是权重矩阵本身的几何性质，而非仅仅增加旁路。这意味着它可能解决 LoRA 无法解决的训练不稳定问题（如灾难性遗忘）。
- 劣势：实现复杂度远高于 LoRA，LoRA 仅需几行代码，而 POET-X 可能涉及自定义 CUDA Kernel 以加速矩阵变换。

技术分析

以下是对论文 POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation 的深入分析报告。

POET-X: 深度分析报告

1. 研究背景与问题

核心问题： 大型语言模型（LLM）的训练面临着“不可能三角”的挑战：即在有限的计算资源（特别是显存）下，同时实现大模型规模、训练稳定性和高泛化性能。具体而言，现有的优化算法（如 AdamW）在处理大参数量模型时，显存占用极高（主要来自优化器状态），且容易受到损失函数地形尖锐的影响，导致训练不稳定或需要极小的学习率。

研究背景与意义： 随着 LLM 参数量从亿级迈向万亿级，训练成本呈指数级上升。为了降低门槛，业界迫切需要在单卡或有限集群上训练大模型的能力。此外，训练过程中的梯度爆炸/消失和损失尖峰是导致训练失败的主要原因。如果能通过一种数学变换，使得优化地形更加平滑，就能使用更大的学习率，从而加速收敛。

现有方法的局限性：

传统优化器（AdamW/SGD）： 需要存储一阶和二阶动量，显存占用通常是模型参数本身的两到三倍（例如 7B 模型仅优化器状态就需要数十 GB 显存）。
零优化技术： 虽然 ZeRO 等技术通过分片优化器状态解决了显存问题，但它们并未改变优化过程的数学本质，即并未解决损失曲面的病态问题，因此对学习率依然敏感。
原始 POET 方法： 虽然 POET 通过正交变换改善了优化地形，但它引入了额外的密集矩阵乘法操作。在处理长序列或大维度时，这些中间激活值的显存占用和计算开销甚至超过了模型本身，导致无法实际应用于大模型训练。

重要性： POET-X 的出现打破了这一僵局。它不仅继承了正交变换带来的数学稳定性，还通过工程和算法创新解决了资源瓶颈，使得在消费级或单卡专业级 GPU 上训练百亿级模型成为可能，极大地降低了大模型研究的准入门槛。

2. 核心方法与创新

核心方法：POET-X (Scaling Orthogonal Transformation) POET-X 是对原始 POET 框架的重构。其核心思想是在不引入额外密集计算开销的前提下，对权重矩阵 $W$ 进行正交等价变换。

技术创新点：

可扩展的正交变换： 原始 POET 需要计算完整的 $Q W$（其中 $Q$ 为正交矩阵），这会产生巨大的中间张量。POET-X 摒弃了这种显式展开，转而利用分块计算或隐式变换策略，将变换操作融入到现有的线性层计算中，从而避免了显存激增。
内存高效的实现： 通过算子融合和内存复用，POET-X 极大地减少了反向传播过程中的激活值重计算开销。
优化器解耦： 由于正交变换平滑了损失曲面，POET-X 往往可以配合更简单的优化器（甚至 SGD）或使用更低的精度配置，从而进一步节省内存。

方法的优势：

吞吐量提升： 相比原始 POET，POET-X 显著减少了计算图中的节点数，提高了训练吞吐量。
单卡大模型训练： 极大地压低了显存水位线，使得原本需要多卡并行才能跑得动的模型可以在单卡上运行。
即插即用： 作为一种优化技术，它理论上可以应用于各种架构（Transformer, MLP 等）。

理论依据： 基于矩阵扰动理论和优化动力学。通过正交变换保持权重矩阵的奇异值分布，避免在训练过程中奇异值过度膨胀或萎缩，从而维持梯度的健康流动。

3. 理论基础

数学模型： POET-X 延续了 POET 的理论基础，即正交等价性。对于任意权重矩阵 $W$，引入正交矩阵 $Q$，使得优化目标从 $W$ 转移到 $QW$ 或 $WQ$。

关键理论点：

谱范数保持： 正交变换不改变矩阵的奇异值，即 $\sigma(QW) = \sigma(W)$。这意味着模型的 Lipschitz 常数保持稳定，从而有效防止梯度爆炸。
平滑的优化景观： 理论分析表明，通过正交变换，原本尖锐的极小值区域被“拉伸”或“平滑”，这使得优化器更容易找到全局最优解的邻域，且对初始值和学习率的敏感度降低。

理论贡献分析： POET-X 的主要贡献在于将原本“计算不可行”的理论框架变成了“计算可行”的工程现实。它证明了可以通过数学技巧（如利用矩阵乘法的结合律）来解耦计算依赖，从而在不牺牲理论性质（如稳定性）的前提下，获得线性的内存复杂度。

7. 学习建议

适合读者背景：

具备深度学习基础，了解 Transformer 架构和反向传播机制。
熟悉 PyTorch 等深度学习框架的内存管理机制（如 .to(), in-place 操作）。
对线性代数（特别是正交矩阵、SVD 分解）有一定理解。

前置知识：

优化算法原理。
矩阵微积分。
显存分析模型（Activation Memory vs. Optimizer State Memory）。

阅读顺序：

先阅读摘要和引言，理解 POET 与 POET-X 的区别。
跳过数学证明，直接看 Method 部分的伪代码或算法流程图。
重点阅读实验部分的“单卡训练”对比图表。
最后回过头来啃读理论证明部分。

研究最佳实践

实践 1：应用正交变换以解耦参数更新

说明: POET-X 的核心在于利用正交变换矩阵对模型参数进行变换。由于正交矩阵具有保持欧几里得距离和范数的特性，在变换后的空间中进行参数更新（如剪枝或量化）不会破坏原始参数空间的几何结构。这使得模型能够在保持性能的同时，显著降低内存占用。

实施步骤:

识别模型中适合进行低秩分解或压缩的线性层。
构造或学习正交变换矩阵 $Q$，确保满足 $Q^T Q = I$。
在训练过程中，将参数变换到正交空间进行优化，然后再映射回原始空间。

注意事项: 确保正交矩阵的数值稳定性，避免在反向传播过程中出现梯度消失或爆炸。

实践 2：采用分块更新策略

说明: 为了进一步减少内存消耗，POET-X 建议不要一次性更新所有参数，而是将参数矩阵分成若干块。通过在微观时间尺度上交替更新不同的块，可以在保持全局收敛性的同时，大幅降低峰值显存需求。

实施步骤:

将大的权重矩阵沿行或列维度划分为较小的子块。
在每个训练步骤中，仅选择一个或少数几个子块进行激活和更新。
设计调度策略，确保在若干个 Step 内所有子块都能获得更新机会。

注意事项: 需要调整学习率，因为分块更新改变了参数更新的频率和方差。

实践 3：利用低秩投影优化注意力机制

说明: 在处理长序列或大模型时，注意力机制的 KV Cache 占用大量内存。利用 POET-X 的正交变换特性，可以对 Key (K) 和 Value (V) 矩阵进行低秩投影，在保留语义信息的同时压缩中间激活值。

实施步骤:

分析注意力层中 K 和 V 矩阵的奇异值分布，确定最佳截断秩。
引入可学习的低秩正交投影层，减少隐藏层维度。
在微调阶段冻结部分投影参数，以减少可训练参数量。

注意事项: 压缩 KV Cache 可能会影响模型对长距离依赖的捕捉能力，建议在长文本任务中进行针对性验证。

实践 4：实施混合精度训练与正交约束

说明: 结合 POET-X 使用 BF16 (BFloat16) 进行前向和反向传播，但在存储正交变换矩阵的关键部分使用 FP32。这有助于在维持变换矩阵正交性严格约束的同时，最大化计算吞吐量。

实施步骤:

将主模型权重转换为 BF16 格式以节省显存。
对正交变换相关的特定张量维持 FP32 主副本。
在优化器更新步骤后，显式调用“正交化”操作（如 SVD 修正或 Cayley 变换）以恢复矩阵的正交性。

注意事项: 频繁的 SVD 分解计算开销较大，可考虑每隔若干步进行一次正交修正，或使用指数移动平均（EMA）来稳定正交性。

实践 5：梯度检查点与内存高效的激活重计算

说明: POET-X 强调内存效率，因此应配合梯度检查点技术。在反向传播时重新计算激活值而不是存储它们，虽然会增加约 20-30% 的计算时间，但能将显存占用降低一个数量级，从而支持训练更大的模型。

实施步骤:

在深度神经网络的主要层（如 Transformer Block 的输入/输出）设置检查点。
配合 POET-X 的分块更新策略，仅在需要时重计算相关子块的激活值。
确保框架（如 PyTorch）的 torch.utils.checkpoint 正确应用于自定义的正交变换层。

注意事项: 重计算会破坏某些算子的融合优化，需权衡计算时间与内存容量的限制。

实践 6：渐进式解耦训练

说明: 在训练初期，模型参数处于随机状态，严格的正交约束可能导致收敛变慢。最佳实践是采用渐进式策略：在训练早期允许参数有较大的自由度，随着训练进程逐渐增强正交约束的强度。

实施步骤:

定义一个正则化权重调度器，随训练步数线性或指数增加。
在 Warm-up 阶段，主要关注 Loss 的下降，适当放宽对正交矩阵 $Q$ 的约束惩罚。
进入稳定训练阶段后，逐步增加正交正则化项的系数，强制参数空间满足 POET-X 的低秩特性。

注意事项: 监控验证集 Loss，确保在增强约束时模型没有出现突发的性能崩溃。

学习要点

POET-X 通过将参数增量分解为正交变换矩阵与低秩矩阵的乘积，在保持全量微调性能的同时显著降低了显存开销。
该方法利用正交矩阵的“无参数”特性（通过指数映射或哈达玛变换实现），在不牺牲模型表达能力的前提下实现了极低的训练时显存占用。
POET-X 在保持与 LoRA 相当的显存效率水平下，显著超越了现有 PEFT 方法（如 LoRA 和 Adapter）在语言建模和指令微调任务上的性能表现。
这种设计有效缓解了传统全量微调中的灾难性遗忘问题，因为它允许模型在保留预训练知识的基础上进行高效的知识注入。
该方法证明了在有限资源下，通过巧妙的参数化设计（正交约束）可以打破低秩适配器的性能瓶颈，实现更高效的 LLM 训练。

学习路径

阶段 1：前置知识与基础理论

学习内容:

线性代数基础: 重点掌握矩阵乘法、特征值分解、奇异值分解（SVD）以及正交矩阵的几何意义和性质。
深度学习优化理论: 理解随机梯度下降（SGD）、Adam优化器原理，以及权重衰减与正则化的作用。
Transformer架构: 深入理解自注意力机制、层归一化、MLP层以及前向传播和反向传播的计算流程。
LLM训练基础: 了解大规模语言模型训练中的显存瓶颈，包括激活值显存、梯度显存和优化器状态的构成。

学习时间: 2-3周

学习资源:

教材: 《深度学习》(花书) - Ian Goodfellow (第2章线性代数, 第8章优化)
课程: 斯坦福大学 CS224N NLP与CS231N 深度学习课程
博客: “The Gradient Illusion” 或 LLM.intelligence() 系列关于训练显存分析的文章

学习建议: 不要急于阅读论文，先确保对正交性在优化中的作用（如保持梯度流动、防止特征冗余）有直观理解。复现一个简单的Transformer模块是检验这一阶段成果的最好方式。

阶段 2：参数高效微调（PEFT）与正交性深入

学习内容:

PEFT方法对比: 系统学习LoRA、Adapter、Prefix Tuning等经典方法的原理与优缺点。
正交变换在深度学习中的应用: 学习如何通过正交约束来稳定训练，理解正交初始化和正交正则化。
显存优化技术: 了解混合精度训练、梯度检查点和ZeRO等显存优化策略，为理解POET-X的动机做铺垫。

学习时间: 3-4周

学习资源:

论文: LoRA原论文, “Scaling Law for Neural Language Models”
文章: Hugging Face 博客关于 PEFT 的详细介绍
工具: Hugging Face PEFT 库文档

学习建议: 尝试使用LoRA微调一个小型模型，并观察其显存占用情况。思考LoRA虽然减少了参数量，但在处理长序列或大规模微调时，激活值显存依然存在的问题，这正是POET-X试图解决的核心痛点之一。

阶段 3：POET-X 核心原理与算法剖析

学习内容:

POET-X 论文精读: 逐字阅读《POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation》。
核心机制解析:
- 理解POET-X如何利用正交变换来解耦参数更新。
- 分析其如何通过缩放正交变换来减少激活值的量化误差或数值不稳定性。
- 掌握其在保持模型性能的同时，如何显著降低训练时的显存占用（尤其是KV Cache或激活值部分）。
数学推导: 手推论文中关于正交梯度更新和显存复杂度分析的关键公式。

学习时间: 2-3周

学习资源:

核心论文: arXiv上的 POET-X 原文
辅助资料: 查找论文作者在GitHub上发布的代码库（如果有）或相关讨论区
相关论文: 查阅文中引用的关于正交训练的基础论文

学习建议: 重点关注POET-X与传统方法在“反向传播”阶段的差异。画出POET-X模块的计算图，标注数据流和显存占用点。问自己：它是如何在不牺牲精度的前提下压缩中间状态的？

阶段 4：代码实现与工程复现

学习内容:

框架掌握: 熟悉 PyTorch 的 torch.nn 模块，特别是自定义 Function（用于实现反向传播）和 autograd 机制。
算法实现:
- 实现正交矩阵的参数化表示（如利用Householder变换或Cayley变换）。
- 编写POET-X的自定义层或算子。
实验验证: 在小型数据集（如WikiText-2）上，对比POET-X与全量微调、LoRA在显存占用和收敛速度上的表现。

学习时间: 4-6周

学习资源:

代码库: PyTorch 官方文档
参考项目: Hugging Face Transformers 源码
硬件: Google Colab Pro 或具有大显存的本地GPU服务器

学习建议: 如果原论文未提供官方代码，尝试从零复现核心算法是最快的提升方式。注意数值稳定性问题，正交矩阵的维护在低精度（FP16/BF16）下容易出现NaN，需要仔细处理。

常见问题

POET-X 的核心创新点是什么？它与传统的 LLM 训练方法有何不同？

POET-X（Scaling Orthogonal Transformation）的核心创新在于提出了一种内存高效的参数高效微调（PEFT）方法。与传统的全量微调或 LoRA（Low-Rank Adaptation）等方法不同，POET-X 通过引入正交变换来缩放预训练模型的权重。

具体来说，传统方法通常需要存储大量的优化器状态（如 Adam 的动量信息），这在训练大语言模型时占据了绝大多数的显存开销。POET-X 重新参数化了优化过程，利用正交矩阵的特性（即变换前后向量长度不变），使得更新过程不需要存储庞大的优化器状态，从而在保持模型性能的同时，极大地降低了训练时的显存占用。这使得在消费级显卡（如 4090）上训练百亿参数级别的模型成为可能。

使用 POET-X 进行训练能节省多少显存？

根据论文中的实验数据，POET-X 能够显著降低训练时的显存峰值。在标准的大模型微调场景中，显存通常被模型权重、梯度和优化器状态以 1:1:2 的比例占用。这意味着优化器状态往往占据了一半以上的显存。

POET-X 通过移除对优化器状态的依赖，主要只需要存储模型权重和梯度。在论文的报告中，相比标准的全量微调，POET-X 可以减少约 50% 甚至更多的显存占用。具体节省的比例取决于模型的大小和配置，但其设计目标正是为了解决“显存墙”问题，让研究者能够在有限的硬件资源上进行大模型训练。

POET-X 与 LoRA（Low-Rank Adaptation）相比有什么优势？

虽然 POET-X 和 LoRA 都属于参数高效微调（PEFT）技术，旨在降低训练成本，但它们的侧重点不同：

优化器状态：LoRA 虽然减少了可训练参数的数量，但在训练过程中，通常仍需要为这些新增的适配器参数维护优化器状态（如 Adam 的动量和方差）。POET-X 则通过数学设计，使得权重更新可以通过正交变换直接计算，从而彻底抛弃了优化器状态的存储。
参数规模：LoRA 通过添加低秩矩阵来模拟权重更新，其参数量通常非常小（原模型的 1% 以下）。POET-X 虽然也是 PEFT，但其在训练过程中涉及对原模型权重的变换处理，旨在提供一种比 LoRA 表达能力更强但又比全量微调更省内存的中间方案。
性能表现：在某些特定任务中，POET-X 由于其独特的变换机制，可能比 LoRA 捕捉更复杂的特征变化，收敛性更好，且不会遇到 LoRA 可能存在的秩（Rank）选择敏感性问题。

POET-X 在模型精度或收敛性方面表现如何？

论文中的实验结果表明，POET-X 在保持与全量微调相当的性能方面表现优异。由于正交变换具有保持向量范数（长度）不变的数学特性，这有助于在训练过程中稳定梯度的流动，防止梯度消失或爆炸，从而在一定程度上保证了训练的稳定性。

在多个基准测试（如常识推理、MMLU 等）中，使用 POET-X 微调的模型在下游任务上的表现与全量微调非常接近，甚至在某些情况下优于其他 PEFT 方法。这意味着用户在享受显存节省的同时，不需要牺牲模型的最终精度。

POET-X 的实现难度大吗？是否兼容现有的深度学习框架？

从原理上看，POET-X 的实现并不算极其复杂，它主要涉及线性代数中的正交变换逻辑。然而，由于它改变了标准的权重更新规则（不再直接应用标准的 SGD 或 Adam 更新），因此通常需要对现有的训练器（Trainer）或优化逻辑进行定制化修改，而不能像 LoRA 那样简单地作为一个层插入到现有模型中无缝使用。

目前，随着论文的发布，社区可能会逐渐集成到主流的 PEFT 库（如 Hugging Face PEFT）中。但在初期，使用者可能需要参考论文提供的伪代码或官方开源仓库（如果有）进行集成。它兼容 PyTorch 等主流框架，但需要自定义训练循环中的参数更新部分。

什么样的场景最适合使用 POET-X？

POET-X 最适合以下场景：

显存受限的大模型微调：当你需要在单张或少数几张消费级显卡（如 RTX 3090/4090）上微调参数量较大的模型（如 Llama-3-70B 或类似规模），且显存不足以容纳优化器状态时。
需要高质量微调的任务：如果你发现 LoRA 等低秩方法在特定复杂任务上效果不佳，无法达到全量微调的性能，但又没有足够的资源进行全量微调，POET-X 是一个很好的折中方案。
**

引用

ArXiv: http://arxiv.org/abs/2603.05500v1
PDF: https://arxiv.org/pdf/2603.05500v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： POET-X / LLM训练 / 正交变换 / 内存优化 / 训练稳定性 / H100 / 预训练 / cs.LG
场景：大语言模型

POET-X：通过正交变换扩展实现大模型高效训练