从隐藏向量到文本：LM Head 如何预测下一个词

基本信息

作者: 树獭叔叔
链接: https://juejin.cn/post/7610629556069417023

导语

在 Transformer 架构中，LM Head 承担着将抽象的隐藏向量转化为具体文字的关键任务，是模型生成能力的最终体现。理解这一环节，不仅有助于厘清大模型推理的最后一步，更能直观展示模型如何基于概率分布预测“下一个词”。本文将详细拆解 LM Head 的工作原理与计算逻辑，帮助读者深入掌握从数值计算到语言生成的完整过程。

描述

回顾：大模型的完整流程在前面的章节中，我们学习了Transformer的各个组件。现在让我们回顾一下完整流程： $$ \begin{aligned} &\text{输入：} \quad \text{

摘要

这段内容主要回顾了大型语言模型（LLM）中**LM Head（语言模型头）**的工作原理，即模型如何将内部的隐藏向量转换为具体的“下一个词”。以下是核心要点的总结：

1. 基本概念回顾

隐藏向量：在经过Transformer的层层处理后，输入的文本被转化为一串高维的浮点数向量（例如维度为4096）。这些向量极其抽象，包含了上下文的丰富语义信息，但人类无法直接阅读。
LM Head的作用：充当“翻译官”或“解码器”的角色，负责将这些抽象的高维向量映射为人类可读的词汇表。

2. 技术实现机制

线性投影：LM Head本质上是一个巨大的线性层（不带偏置项 Bias 的全连接层）。它的作用是将高维的隐藏向量空间（如4096维）“投影”或“映射”到词汇表空间（如5万维，对应5万个可能的Token）。
权重共享：在GPT等模型中，LM Head的权重矩阵通常与模型最底层的**输入Embedding（嵌入层）**矩阵共享。这意味着“词转向量”和“向量转词”使用的是同一本“词典”，这有助于减少参数量并优化训练。

3. 输出“下一个词”的完整流程

未归一化的预测：经过LM Head的线性变换后，模型会输出一个与词汇表大小相同的向量，其中的每一个数值代表了该位置出现对应Token的原始分数。
归一化：通过Softmax函数将这些原始分数转换为概率分布（所有概率之和为1），计算出每一个候选词成为“下一个词”的可能性。
采样策略：根据生成的概率分布，结合策略（如贪婪搜索、Top-k采样、核采样等）选择最终的词，作为模型的输出。

总结： LM Head是连接模型内部数学运算与外部人类语言的桥梁。通过简单的线性变换和概率计算，它将复杂的语义特征解码为具体的文本输出。

中心观点 该文章试图从技术底层解构大语言模型（LLM）的生成机制，重点阐述“从隐藏向量到文字”的映射过程，其核心价值在于将抽象的神经网络输出概率转化为可理解的离散Token，但受限于摘要截断，其对现代解码策略的讨论可能存在简化。

深入评价与分析

1. 内容深度：概念准确但需警惕“朴素模型”陷阱

事实陈述：文章提及“回顾Transformer完整流程”并聚焦于“LM Head”，这是理解LLM推理的关键一环。LM Head本质上是一个巨大的线性映射层（通常权重矩阵维度为 $[d_{model}, vocab_size]$），负责将模型产生的连续高维向量投影到离散的词表空间。
你的推断：基于摘要中“下一个词”的表述，文章极大概率会介绍Softmax归一化和贪婪搜索或Top-k采样。
批判性分析：如果文章仅停留在“取最大概率值”作为输出，则深度不足。现代LLM（如GPT-4, Claude 3）极少直接使用贪婪解码，而是依赖复杂的核采样或惩罚策略。若文章未深入探讨Temperature（温度）、Top-p以及Repetition Penalty对LM Head输出分布的二次修正，则其对“如何输出”的解释停留在教科书式的初级阶段，未能反映工业界真实的生成逻辑。

2. 实用价值：调试模型幻觉的基石

支撑理由：理解LM Head的工作原理是解决模型“胡言乱语”的基础。例如，当模型输出乱码或不断重复同一个词时，往往不是Transformer主体的问题，而是LM Head后的采样参数设置不当。
实际案例：在微调垂直领域模型时，若Special Token（如<EOS>）未被LM Head正确赋予高概率，会导致模型无法停止生成。理解这一层有助于工程师在微调时调整Loss Mask，确保模型学会何时“闭嘴”。

3. 创新性与行业影响：基础知识的科普化

作者观点：文章试图将复杂的矩阵运算还原为直观的流程图。
行业影响：此类技术科普有助于打破“黑盒”神话，让产品经理和初级工程师明白模型输出的是概率而非确定性事实。这在当前行业盲目迷信模型能力的背景下，起到了理性回归的作用。
边界条件（反例）：对于VLM（视觉语言模型）或MoE（混合专家模型），单纯的“LM Head”概念已扩展。VLM中可能存在Projector将视觉特征对齐到文本空间，MoE中则涉及不同Expert输出的路由汇聚。若文章仅以Decoder-only架构为基准，其结论不适用于上述架构。

4. 争议点与不同观点：Softmax的瓶颈

争议点：行业内对于LM Head的计算效率存在争议。随着词表扩展到20万+（如Qwen, Llama 3），LM Head的计算和内存开销成为瓶颈。
不同观点：部分前沿研究（如Base2Vec或自适应Softmax）认为，不应将所有Token平等对待。如果文章未提及词表大小对推理延迟的线性影响，则忽略了工程优化的核心痛点。

5. 可读性与逻辑

支撑理由：使用LaTeX公式和分步讲解符合技术人员的阅读习惯，逻辑链条清晰（输入->隐藏层->概率->文字）。
反例：若文章混淆了“Embedding（编码）”与“LM Head（解码）”的权重绑定关系，可能会给初学者带来困扰。实际上，许多模型为了节省参数，会将Input Embedding和LM Head的权重共享，这一点如果未讲清楚，会导致理解断层。

实际应用建议

采样策略调优：不要迷信概率最高的词。在实际应用中，通过降低Temperature使分布更陡峭，可以提高事实性问答的准确率；通过提高Temperature可以增加创意性。
词表裁剪：在特定垂直领域（如医疗），可以分析LM Head的输出分布，裁剪掉从未出现过的低频Token，以此加速推理。
Logits分析：在评估模型安全性时，不要只看生成的最终文字，要检查LM Head输出前几名的Logits。如果危险概念的排名靠前（即使没被选中），说明模型存在潜在的安全隐患。

可验证的检查方式

指标验证：文章是否给出了Perplexity（困惑度）的计算公式？这是衡量LM Head预测准确性的核心指标。
代码实验：使用Python（HuggingFace Transformers库）提取模型的最后隐藏状态，手动实现一次矩阵乘法和Softmax，看是否能复现文章描述的“下一个词”概率分布。
观察窗口：观察文章是否讨论了“Beam Search”与“Greedy Search”的区别。如果完全未提及Beam Search，说明文章主要关注单步预测，忽略了多步全局最优解的搜索逻辑。
架构对比：检查文章是否区分了causal（因果）掩码在LM Head之前的作用，确保没有混淆单向注意力和输出层的关系。

学习要点

LM Head 是将模型输出的隐藏向量映射回人类可读文本的关键组件，本质上是一个巨大的线性层（矩阵乘法），负责将高维向量转换为词表大小的 logits。
模型输出的 logits 本身是未归一化的数值，必须经过 Softmax 函数处理，将其转换为所有词在词表上的概率分布（总和为 1）。
在生成阶段，通常不直接选取概率最高的词，而是采用 Top-k 或 Nucleus Sampling 等策略从高概率候选词中采样，以增加文本的丰富性和多样性。
LM Head 的权重矩阵通常与模型输入层的 Embedding 层共享权重（Weight Tying），这能有效减少模型参数量并防止过拟合。
模型输出的隐藏向量维度通常远大于词表大小，LM Head 的作用就是将这个高维语义空间“压缩”到一维的词表预测空间。
推理速度受限于词表大小，LM Head 需要计算与词表中数万个 token 的点积，是生成过程中的计算密集型环节。
预测下一个词的本质是在高维向量空间中寻找语义距离最近（点积最大）的词向量。

常见问题

1: LM Head 在 Transformer 架构中具体处于什么位置，它的输入是什么？

A: LM Head（语言模型头）通常位于 Transformer 模型主体（包括 Embedding 层和多层堆叠的 Block/Decoder 层）之后。在处理完输入序列并尝试预测“下一个词”时，模型的最后一层会输出一个隐藏向量序列。对于我们要预测的最后一个时间步，模型会输出一个高维的隐藏状态向量。这个向量包含了前面所有上下文的语义信息，LM Head 的任务就是接收这个高维抽象的向量，并将其映射回人类可读的词汇表空间。

2: LM Head 的核心计算逻辑是什么？它如何将向量变成词表？

A: LM Head 的核心操作通常是一个线性映射，即一个不带偏置的线性层。这个线性层的权重矩阵形状为 $[d_{model}, vocab_size]$，其中 $d_{model}$ 是隐藏层维度（例如 4096 或 768），而 $vocab_size$ 是词表大小（通常在 5 万到 10 万之间）。

计算过程是将输入的隐藏向量与这个权重矩阵进行矩阵乘法。经过这一步，原本维度为 $d_{model}$ 的向量就被转换成了一个长度为 $vocab_size$ 的 logits（未归一化的预测分数）向量。这个向量中的每一个数值，都代表了词表中对应词成为“下一个词”的可能性大小。

3: 为什么说 LM Head 和模型的 Embedding 层通常有“权重共享”的关系？

A: 在现代大语言模型（如 GPT 系列、Llama 等）中，LM Head 的权重矩阵 $W_{head}$ 往往与输入层的 Embedding 权重矩阵 $W_{embed}$ 是绑定的，即 $W_{head} = W_{embed}^T$。

这种设计的原理基于“词向量空间对齐”假设：模型在输入层将单词 One-hot 编码映射为语义向量，那么在输出层将语义向量还原回单词时，本质上应该是输入映射的逆过程。权重共享不仅可以大幅减少模型的参数量（节省数亿甚至数十亿个参数），在实践中还能帮助模型收敛得更好，提升泛化能力。

4: LM Head 输出的是 logits，模型最终是如何选定“下一个词”的？

A: LM Head 输出的 logits 不能直接用来生成文字，必须经过后处理步骤：

Softmax 归一化：首先对 logits 向量施加 Softmax 函数，将其转换为概率分布，所有词的概率之和为 1。
采样策略：根据这个概率分布来选择最终的词 ID。常见的策略包括：
- Greedy Search（贪婪搜索）：直接选择概率最高的那个词。
- Top-k 采样：从概率最高的 k 个词中随机抽取一个。
- Nucleus Sampling（Top-p）：从累积概率达到 p 的最小词集合中随机抽取。
- Temperature（温度缩放）：在 Softmax 前对 logits 除以温度系数，控制输出的随机性。

5: 如果词表中没有某个词（例如生僻字或未登录词），LM Head 如何处理？

A: 标准的 LM Head 只能输出词表索引范围内的词。如果遇到词表之外的词，通常有两种情况：

使用 Byte-Pair Encoding (BPE) 或 WordPiece 等分词器：现代 LLM 使用子词切分。即使是一个很长的生僻词，分词器也会尝试将其拆解为词表中存在的多个“子词”片段。LM Head 只需要预测出这些子词，组合起来就是完整的生僻词。
Fallback（回退机制）：如果分词器完全无法识别（例如某些非常古老的异体字），通常会被映射为 <UNK>（未知词）标记。但在训练数据充足的大模型中，通过字节级或 Unicode 级的训练，这种情况已经非常少见。

6: 在训练阶段和推理阶段，LM Head 的工作方式有什么不同？

A: LM Head 的结构和权重在训练和推理阶段是完全一样的，但它的输入和计算目标不同：

训练阶段：模型会一次性输入一整段文本，LM Head 会针对序列中的每一个位置计算其下一个词的预测，并生成一个巨大的预测矩阵。然后通过交叉熵损失函数，计算预测结果与真实标签之间的误差，并反向传播更新整个网络的参数（包括 LM Head 的权重）。
推理阶段：我们通常采用自回归的方式。每次只输入前面的序列，LM Head 只需要计算最后一个位置的输出，得到下一个词的概率分布，选出词后将其拼接到输入中，再进行下一轮预测。

引用

掘金原文: https://juejin.cn/post/7610629556069417023

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / AI 工程
标签： LLM / Transformer / LM Head / Token预测 / Softmax / 权重共享 / 线性投影 / 解码器
场景：大语言模型

2026年AI展望：LLM、智能体、扩展定律与中国角色
2026年AI展望：LLM、智能体、算力与Scaling Laws
FlashAttention-T：张量化注意力机制优化方案
FlashAttention-T：张量化注意力机制优化方案
两种加速大模型推理的技术方法 本文由 AI Stack 自动生成，提供深度内容分析。

AI Stack

从隐藏向量到文本：LM Head 如何预测下一个词