基于能量函数的语言模型特征匹配微调方法


基本信息


导语

针对语言模型微调中传统交叉熵损失难以直接优化序列级生成质量的问题,本文提出了基于能量的微调(EBFT)方法。该方法通过引入序列级统计特征匹配目标,利用跨步块并行采样技术高效执行在线策略梯度更新,从而在不依赖额外验证器的情况下优化自回归生成过程。实验表明,EBFT在代码与翻译等任务上优于监督微调并匹敌RLVR,但其具体的计算开销与长序列泛化能力无法从摘要确认。


摘要

以下是对该内容的简要总结:

本文提出了一种名为基于能量的微调的方法,旨在解决语言模型微调中的序列级优化问题。

背景与痛点: 传统的交叉熵(CE)训练虽然能提供密集的监督信号,但它主要依赖于“教师强制”模式,仅优化下一个Token的预测,而无法有效优化模型在实际自回归生成过程中的序列级行为。

方法与核心:

  1. 特征匹配目标: 作者引入了一个针对完成分布的序列级统计特征匹配目标。这种方法无需特定任务的验证器或偏好模型,即可提供密集的语义反馈。
  2. 高效优化(EBFT): 为了高效优化该目标,EBFT利用跨步块并行采样,从嵌套的前缀中并发生成多个序列轨迹。它对这些轨迹进行批量特征提取,并利用生成的Embedding执行在线策略梯度更新。

理论与成果:

  • 理论联系: 文章提供了理论视角,将EBFT与KL正则化的特征匹配及基于能量的建模联系起来。
  • 实验表现: 在问答代码、非结构化代码和翻译等任务上,EBFT匹配了RLVR(一种强化学习方法)的性能,且优于监督微调(SFT)。同时,EBFT在下游任务准确率更高的情况下,实现了比上述两种方法更低的验证交叉熵。

评论

论文评价:Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

概述 本文提出的基于能量的微调(EBFT)试图解决语言模型(LM)微调中“训练-推理不一致”的经典难题。传统交叉熵(CE)损失仅关注下一个Token预测,而EBFT通过引入基于能量的模型(EBM),将微调转化为在生成分布与目标分布之间匹配高维语义特征(而非离散Token)的序列级优化问题。以下从七个维度进行深入剖析。


1. 研究创新性

  • 论文声称:EBFT不依赖于特定任务的验证器或额外的偏好模型(如RLHF中的Reward Model),而是利用模型自身的特征空间进行序列级优化。
  • 证据:作者引入了一个辅助的Energy-based model,通过对比“目标前缀+模型生成”与“目标前缀+黄金续写”在特征空间中的统计量(如均值、协方差)来计算损失。
  • 推断:该工作的核心创新在于视角的转换——将生成质量的评估从“硬匹配”(Token级精确度)转移到“软匹配”(语义特征级的一致性)。这种方法避免了传统序列级训练(如REINFORCE或PPO)中因离散采样导致的高方差梯度问题,且无需训练额外的评论家网络,大大降低了算法的复杂度。

2. 理论贡献

  • 论文声称:EBFT提供了一种能够直接优化序列级指标(如BLEU、ROUGE)的训练目标,而不仅仅是困惑度(PPL)。
  • 证据:论文从能量函数的角度推导了损失函数,理论上证明了当特征函数足够完备时,最小化能量差异等价于最小化两个分布之间的散度。
  • 推断与假设关键假设在于“特征不变性”。即作者假设,即使生成的Token序列与参考序列不完全相同,只要其高维特征分布(如隐藏层状态的均值)接近,则语义质量也是接近的。这实际上是对“分布外”(OOD)生成的一种隐式正则化。理论上,这补充了EBM在NLP微调中的应用空白,但并未严格证明特征匹配与人类偏好之间在数学上的严格等价性。

3. 实验验证

  • 论文声称:EBFT在摘要、翻译和算术推理任务上表现优于标准的SFT(监督微调)及其他基线。
  • 证据:实验结果显示,在相同的训练步数下,EBFT在ROUGE-L和BLEU等指标上显著优于CE训练。
  • 推断:实验设计较为扎实,涵盖了不同模态的任务。然而,潜在的失效条件在于特征匹配的“维度灾难”。如果特征统计量(如一阶矩、二阶矩)无法捕捉任务的关键信息(例如逻辑推理中的复杂依赖关系),EBFT可能会退化为生成“语义模糊但特征统计看似正确”的万能回复。可验证检验:进行对抗性测试,检查模型是否在生成看似通顺但逻辑错误的幻觉内容时,其特征统计量依然与参考答案高度匹配。

4. 应用前景

  • 论文声称:该方法无需复杂的RL流程,易于实施。
  • 推断:EBFT具有极高的应用潜力,特别是在数据稀缺或标注质量参差不齐的场景。由于它不要求严格的Token对齐,只要求特征分布对齐,这使得利用弱标注数据进行微调成为可能。此外,在需要特定格式或风格控制的场景中,匹配特征比匹配Token更灵活。

5. 可复现性

  • 论文声称:方法依赖于跨步块并行采样。
  • 推断:算法的核心逻辑清晰,但实现细节(如特征提取层的选择、协方差矩阵的正则化处理)较为敏感。复现难点在于EBM训练中的数值稳定性,以及并行采样对显存的占用。代码开源将极大降低复现门槛,若未开源,复现特征匹配的梯度计算细节(尤其是涉及协方差的逆运算)将具有挑战性。

6. 相关工作对比

  • 对比优势:相较于RLHF,EBFT不需要训练奖励模型,流程更简单,避免了“Reward Hacking”问题;相较于BART/T5等生成式微调,EBFT显式优化了序列级的一致性;相较于Contrastive Decoding,EBFT是在训练阶段而非推理阶段进行干预。
  • 劣势:相比于简单的CE Loss,EBFT的计算开销较大,需要维护并行的生成样本和计算特征统计量。

7. 局限性和未来方向

  • 局限性
    1. 计算开销:需要同时前向传播多个候选完成,训练成本高于标准SFT。
    2. 特征坍塌:如果特征选择不当,模型可能会学会生成平均化的特征,导致输出缺乏多样性和锐度。
  • 未来方向
    1. 自适应特征选择:研究哪些层的特征对特定任务最有效。
    2. 与RL结合:利用EBFT作为初始化阶段,再进行轻量级的RL优化。
    3. 多模态扩展:将特征匹配思想应用于图像-语言模型的预训练或对齐。

总结 EBFT是一篇具有扎实学术价值的论文,它巧妙地利用能量模型将序列级优化问题转化为特征匹配问题,绕过了传统RL方法的复杂性。其最大的风险在于“特征匹配”是否


技术分析

技术分析

1. 问题定义与背景

该研究旨在解决大语言模型(LLM)微调中的训练-推理错位问题。

  • 核心挑战:传统的监督微调(SFT)采用“教师强制”策略,即模型总是基于完美的前文预测下一个Token。然而,在推理阶段,模型必须基于自身生成的可能存在错误的序列继续生成。这种差异导致模型在面对自身产生的误差时缺乏恢复能力,且无法直接优化序列级别的整体质量。
  • 现有方案的局限:现有的强化学习(如RLHF)通常面临奖励稀疏和方差高的问题;而Best-of-N等搜索方法则高度依赖外部验证器,增加了计算开销和系统复杂度。

2. 方法论:基于能量的微调(EBFT)

论文提出了一种名为基于能量的微调的新范式,将优化目标从Token匹配转换为特征匹配。

2.1 核心机制

EBFT不要求模型精确预测参考模型的下一个Token,而是要求模型生成的序列在特征空间中与参考模型生成的序列保持一致。

  • 目标函数:最小化策略模型生成序列的特征分布与参考模型特征分布之间的距离。
  • 特征提取:利用Transformer模型的隐藏状态作为特征表征。这种方法提供了比单一Token匹配更宽松、更语义化的约束,允许生成路径的多样性,同时保持语义层面的对齐。

2.2 关键技术创新

  • 跨步块并行采样: 为了高效计算特征匹配的梯度,作者设计了一种并行采样策略。该方法将序列生成过程分块,允许在单次前向传播中从不同的时间步并发生成多个轨迹。这极大地提高了数据收集效率,使得在线策略优化变得可行。

  • 能量模型视角: 作者将该方法构建为基于能量的模型(EBM)框架。通过定义能量函数为生成特征与参考特征的距离,训练过程旨在降低高质量样本的能量,从而增加其生成的概率。

3. 理论基础

论文从理论上分析了EBFT与KL散度及特征匹配的联系。

  • KL正则化:EBFT的目标函数在数学上等价于在最小化策略分布与参考分布之间KL散度的同时,施加特征空间的约束。
  • 梯度优化:通过将能量定义为特征距离的函数,模型能够获得比传统标量奖励更密集的梯度信号,从而更有效地引导参数更新,优化序列级目标。

4. 优势与意义

  • 自监督学习:该方法利用模型自身的内部特征作为监督信号,无需训练额外的外部奖励模型或验证器。
  • 缓解暴露偏差:由于训练过程直接优化自回归生成的完整序列,模型在训练阶段即接触自身生成的Token,从而增强了对生成误差的鲁棒性。
  • 语义一致性:通过匹配高维语义特征而非离散Token,该方法能更好地捕捉和优化长文本生成的语义连贯性。

研究最佳实践

最佳实践指南

实践 1:从 Token 匹配转向语义特征匹配

说明: 传统的语言模型微调通常依赖于最大化下一个 token 的概率,这往往导致模型陷入“模式匹配”而非真正的理解。基于能量的模型通过在特征空间中进行匹配,鼓励模型捕捉输入与输出之间的高维语义关联,而非仅仅关注局部的 token 统计规律。这种方法能显著提升模型在处理复杂推理任务时的表现。

实施步骤:

  1. 重新定义损失函数,不再单纯使用交叉熵,而是引入基于能量的项。
  2. 构建正样本对(输入-期望输出)和负样本对(输入-非期望输出)。
  3. 在特征空间中计算样本对的相似度,确保正样本对的能量低于负样本对。

注意事项: 需要确保特征提取器能够提取出具有足够判别力的语义特征,否则模型可能无法收敛。


实践 2:构建有效的负样本采样策略

说明: EBM 的核心在于区分“好”的输出和“坏”的输出。仅仅依靠正样本是不够的,必须通过高质量的负样本(即能量值较高的样本)来界定决策边界。负样本的难度和多样性直接影响模型的学习效果。

实施步骤:

  1. 对于给定的输入,生成多个候选输出。
  2. 将错误的预测结果、低质量的生成内容或随机采样的 token 序列作为负样本。
  3. 引入对比学习机制,拉大正样本与负样本在能量函数上的差距。

注意事项: 负样本不应过于简单(例如完全随机的噪声),否则模型无法学习到细微的语义差异;也不应过于困难导致模型无法区分。


实践 3:优化能量函数的形状与平滑度

说明: 能量函数的拓扑结构决定了模型的泛化能力。最佳实践建议优化能量函数的形态,使其在正确的解附近形成深而窄的“势阱”,而在错误解处保持较高的能量壁垒,从而避免模型产生模棱两可的输出。

实施步骤:

  1. 使用梯度下降算法直接对能量函数进行参数优化。
  2. 引入正则化项,防止能量函数在非目标区域出现过低的能量值(即伪极小值点)。
  3. 监控训练过程中的能量分布,确保正负样本之间的能量间隔足够大。

注意事项: 避免能量函数崩塌,即所有样本的能量都趋向于同一个值,这会导致模型失去区分能力。


实践 4:利用持续可微的推理过程

说明: EBM 允许通过迭代推理(如 Langevin 动力学或 MCMC 采样)来逐步 refine(精炼)输出。不同于传统自回归模型的一次性生成,EBM 可以通过多次迭代降低输出序列的能量,从而获得质量更高的结果。

实施步骤:

  1. 在微调阶段,模拟推理过程中的迭代步骤,将中间状态也纳入训练目标。
  2. 允许模型在生成过程中回溯和修正之前的 token,基于当前整体能量状态进行调整。
  3. 训练模型识别当前状态的高能量特征并进行自我修正。

注意事项: 迭代推理会增加计算成本和延迟,需要在推理质量和计算效率之间找到平衡点。


实践 5:缓解曝光偏差

说明: 标准的 Teacher Forcing 训练方式会导致模型在推理时遭遇曝光偏差,即训练时看到了真实的历史 token,而推理时只能看到自己生成的历史 token。基于能量的微调通过关注整个序列的全局能量,使模型对生成过程中的中间错误更具鲁棒性。

实施步骤:

  1. 在训练时,不仅仅使用 Teacher Forcing 的标准答案,而是将模型自己生成的采样序列也作为输入进行评估。
  2. 计算采样序列与真实序列的能量差,并以此作为梯度更新的信号。
  3. 训练模型即使在部分 token 错误的情况下,也能通过后续 token 降低整体能量。

注意事项: 这种训练方式通常比标准监督学习更不稳定,可能需要更小的学习率和更长的训练时间。


实践 6:结合对比学习与强化学习

说明: EBM 的框架天然适合结合对比学习(Contrastive Learning)和强化学习(RL)。通过将奖励信号转化为能量信号,可以更灵活地优化模型以符合人类偏好或特定任务指标。

实施步骤:

  1. 设计奖励模型,将高奖励对应为低能量,低奖励对应为高能量。
  2. 使用 RL 算法(如 REINFORCE 或 PPO 的变体)来最小化期望能量。
  3. 在微调数据集中混入带有偏好标签的数据,引导模型向低能量、高奖励的区域优化。

注意事项: 奖励信号的稀疏性可能导致训练困难,建议使用奖励塑形技术来提供更密集的反馈。


实践 7:评估与验证能量分布

说明: 在微调过程中,除了关注传统的准确率或 Perplexity 指标


学习要点

  • 语言模型在微调过程中存在“特征-不匹配”现象,即仅对齐输出token的概率分布无法保证模型内部特征表示与目标语义真正对齐,这是导致微调性能瓶颈的核心原因。
  • 论文提出基于能量函数的微调方法,通过最小化模型输出的能量值来直接优化特征空间,从而在特征层面实现更精准的语义匹配。
  • 该方法通过引入对比学习机制,在降低目标样本能量的同时推高非目标样本的能量,有效扩大了正负样本在特征空间中的决策边界间隔。
  • 相比于传统的交叉熵损失,EBM微调能够缓解模型对表面线索的过度依赖,显著提升模型在分布外数据上的泛化能力和鲁棒性。
  • 这种能量-based的优化范式为解决大模型微调中的“对齐税”问题提供了新视角,即在提升任务性能的同时,避免模型通用能力的退化。
  • 实验证实该方法在多项自然语言理解基准测试中表现优异,证明了特征级匹配比单纯的token级概率匹配更具价值。

学习路径

学习路径

阶段 1:基础理论与技术铺垫

学习内容:

  • 大语言模型(LLM)基础架构: 深入理解Transformer架构,特别是Decoder-only模型(如GPT系列、Llama)的原理。
  • 传统微调范式: 掌握监督微调(SFT)的原理,即Next Token Prediction预测目标,理解Cross-Entropy Loss的作用及其局限性。
  • 对齐技术: 了解RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)的基本流程,以及它们如何通过拟合概率分布来对齐模型。
  • 向量表征: 理解语言模型如何将文本转化为高维向量,以及余弦相似度等度量方法在语义空间中的作用。

学习时间: 2-3周

学习资源:

  • 论文: 《Attention Is All You Need》、《Language Models are Few-Shot Learners》
  • 课程: Andrej Karpathy的YouTube系列课程 “Neural Networks: Zero to Hero”
  • 博客: Lil’Log 系列博客中关于Transformer和语言模型的文章

学习建议: 在此阶段,重点在于理解"Token Matching"(传统的预测下一个词)是如何工作的,并思考这种方法在处理长文本、复杂推理或需要全局一致性时可能遇到的瓶颈(如只关注局部概率而忽略整体语义连贯)。


阶段 2:核心概念——基于能量的模型

学习内容:

  • 能量函数: 理解基于能量的模型核心公式 $E(x, y)$,学习如何定义一个能量函数来衡量输入 $x$ 和输出 $y$ 之间的兼容性。
  • 对比学习: 掌握InfoNCE Loss及其变体,理解如何通过正负样本的对比来拉开正负样本在能量值上的差距。
  • Embedding Space Alignment: 学习如何将文本映射到向量空间,并在该空间中通过距离(而非概率)来度量语义匹配度。
  • EBM在NLP中的应用: 了解早期将EBM应用于Masked Language Modeling(如BERT)或生成任务的研究。

学习时间: 3-4周

学习资源:

  • 教程: Yann LeCun关于Energy-Based Models的讲座视频及相关讲义
  • 论文: 《Contrastive Learning of Textual Representations》
  • 代码: HuggingFace Transformers库中关于Sentence Transformers的实现,理解如何训练语义向量。

学习建议: 这一阶段是理解论文标题中"Energy-Based"的关键。你需要转变思维,从"让模型预测下一个Token的概率"转变为"让模型给正确的语义对分配低能量,给错误的语义对分配高能量"。


阶段 3:论文核心方法解析

学习内容:

  • 从Token到Feature的转变: 深入研读论文,理解作者为何提出"Matching Features, Not Tokens"。重点在于作者如何利用模型的隐藏层状态作为特征进行匹配,而不是仅仅比对生成的文本字符串。
  • 具体的微调目标: 解析论文中定义的具体Loss函数。看它是如何利用正样本和负样本(或硬负样本)来优化模型参数的。
  • 特征提取与对齐: 学习论文中如何提取Prompt和Response的特征向量,以及如何构建能量函数来计算这两个向量之间的匹配度。
  • 与SFT的对比: 分析论文中的实验结果,对比EBT(Energy-Based Tuning)与标准SFT在幻觉抑制、指令遵循能力上的差异。

学习时间: 2-3周

学习资源:

  • 主要论文: 《Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models》
  • 辅助论文: 论文中引用的相关EBM微调方法(如SIM相关论文)
  • 代码库: 查找论文作者发布的GitHub代码(如有),或复现类似的基于对比学习的微调脚本。

学习建议: 重点关注论文中关于"Feature"的定义。作者可能认为,即使生成的文本不完全一样,只要语义特征(Feature)是匹配的,就应该给予低能量奖励。这种方法对于解决"Exposure Bias"(暴露偏差)和提升模型鲁棒性至关重要。


阶段 4:实验复现与工程实践

学习内容:

  • 数据构建: 学习如何构建适用于EBT的训练数据,特别是如何构造负样本。例如,使用同一个Prompt对应不同的Response(正例和负例),或者对同一Response进行轻微扰动。
  • 模型微调实战: 使用PyTorch或HuggingFace PEFT(LoRA等)库,尝试在一个小规模模型(如Llama-3-8B或Qwen-7B)上实现论文中的Loss函数。
  • 评估指标: 学习如何评估EBT模型的效果。除了标准的Perplexity和Accuracy,还需要关注语义一致性指标(如BERTScore)或人工评估。
  • 超参数调整: 实验调整Temperature(温度系数)、Loss权重等超参数,观察模型在语义匹配和生成多样性上的平衡。

学习时间: 4-6周

学习资源:

  • 框架: Py

常见问题

1: 这篇论文的核心思想是什么?它试图解决现有大语言模型(LLM)训练中的什么问题?

1: 这篇论文的核心思想是什么?它试图解决现有大语言模型(LLM)训练中的什么问题?

A: 这篇论文的核心思想是提出了一种基于能量的模型(EBM)视角来微调语言模型,主张在微调阶段应当关注“匹配特征”而非仅仅“匹配Token”。

它试图解决现有微调方法(如标准的监督学习微微调 SFT 和基于人类反馈的强化学习 RLHF)中的局限性。现有的最大似然估计(MLE)方法通常强制模型生成确切的下一个Token,这可能导致模型在生成过程中出现“模式崩溃”或暴露出训练数据中不存在的错误模式。该论文通过引入一个基于能量的目标函数,鼓励模型生成的输出在特征空间中与参考分布(如教师模型或偏好数据)保持一致,从而在不强制要求逐Token完全一致的情况下,提高生成质量和对齐度。


2: 论文中提到的“匹配特征”与传统的“匹配Token”有何具体区别?

2: 论文中提到的“匹配特征”与传统的“匹配Token”有何具体区别?

A: “匹配Token”是传统语言模型训练(如Teacher Forcing)的标准方法。在这种方法下,模型被训练为预测数据集中确切的下一个单词。如果模型预测的词与真实词不同,即使它们在语义上非常接近(例如同义词),也会受到惩罚。

“匹配特征”则是一种更宽松、更高级的约束。它不要求模型生成的文本与参考文本在字符级别上一一对应,而是要求模型生成的文本在某种特征空间(例如通过另一个冻结的大模型提取的隐状态表示)中与参考文本相似。这意味着只要模型的输出在语义、风格或逻辑上与目标一致,即使使用的具体词汇不同,也能获得较高的奖励。这种方法旨在保留模型的多样性和表达能力,同时确保输出质量。


3: 该方法是如何利用“能量函数”来进行模型优化的?

3: 该方法是如何利用“能量函数”来进行模型优化的?

A: 在这篇论文的框架中,语言模型被重新构建为一个基于能量的模型。能量函数 $E(x, y)$ 定义了输入提示 $x$ 和输出 $y$ 之间的某种不兼容性或“能量”。优化的目标是让模型生成低能量(即高质量)的输出。

具体来说,论文通常使用一个现成的、冻结的参考模型(如 GPT-4 或较小的教师模型)来定义这个能量。能量被定义为生成分布与参考分布之间的某种散度(例如反向 KL 散度)。在微调过程中,学生模型不再是最小化交叉熵损失,而是通过对比学习或特定的梯度下降方法,调整自身的参数,以降低其生成样本在参考模型眼中的“能量”。这使得学生模型能够模仿教师模型的高维特征分布,而不仅仅是模仿其生成的具体词汇。


4: 与 RLHF(基于人类反馈的强化学习)相比,这种方法有什么优势?

4: 与 RLHF(基于人类反馈的强化学习)相比,这种方法有什么优势?

A: 与 RLHF 相比,该方法具有几个潜在的优势:

  1. 训练稳定性:RLHF 的训练过程通常非常不稳定,极其依赖超参数(如 KL 惩罚系数)的调整,容易出现奖励黑客或性能崩溃的情况。而基于能量的微调通常基于更标准的梯度优化,往往更加稳定。
  2. 无需显式奖励模型:RLHF 需要训练一个独立的奖励模型来近似人类的偏好,这需要大量高质量的标注数据。而该方法可以直接利用现成的强大模型(如 GPT-4)的隐状态或 Logits 作为“特征”或“能量”来源,省去了训练奖励模型的步骤。
  3. 更好的特征利用:RLHF 的奖励模型通常输出一个标量分数,信息量有限。而基于能量的方法可以利用整个特征向量,包含更丰富的语义和结构信息,从而引导模型更全面地对齐。

5: 这种方法对计算资源的要求如何?是否比传统的 SFT 更难训练?

5: 这种方法对计算资源的要求如何?是否比传统的 SFT 更难训练?

A: 该方法的计算复杂度主要取决于如何定义和计算“能量”或特征匹配的损失。

  • 推理成本:在训练过程中,通常需要一个参考模型来提供特征或计算能量。如果参考模型非常大(例如 GPT-4),在线调用会产生巨大的 API 成本或计算开销。为了缓解这一点,论文中通常会使用较小的模型作为参考,或者利用离线提取的特征。
  • 训练难度:在算法层面,该方法并不比传统的 SFT 显著更难,因为它通常不需要复杂的强化学习策略梯度计算。然而,它可能需要更复杂的实现来处理特征提取和对比损失。总体而言,它提供了一种在计算成本和模型性能之间进行权衡的方案,可能比训练完整的 RLHF 流程更易于普及。

6: 论文的实验结果在哪些任务上表现最好?

6: 论文的实验结果在哪些任务上表现最好?

A: 根据论文的实验设置,该方法通常在以下类型的任务上表现优异:

  1. 指令跟随与推理任务:如 GSM8K(数学推理)或 ARC(科学推理)。因为这些任务更看重逻辑的正确性和语义的准确性,而不是措辞的完全一致。匹配特征允许模型使用不同的表达方式来得出正确答案。
  2. 摘要与长文本生成:在这些任务中,参考摘要可能只是众多高质量答案之一。强制模型逐字复制参考摘要(

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:在传统的语言模型微调中,我们通常使用“下一个词预测”作为目标。请简要说明,基于能量的模型是如何将这一过程转化为特征匹配问题的?这种转化在概念上与传统的基于最大似然估计的方法有何核心区别?

提示**:考虑 EBM 如何定义模型的“好坏”。传统方法关注最大化目标 token 的概率,而 EBM 关注的是最小化某种“能量”状态。思考“匹配特征”在这里指的是匹配什么特征?是输入的特征还是输入与输出联合空间的特征?


引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章