训练万亿参数模型使其具备幽默感

基本信息

作者: sdan
评分: 16
评论数: 9
链接: https://jokegen.sdan.io/blog
HN 讨论: https://news.ycombinator.com/item?id=46782692

导语

随着大语言模型参数量的指数级增长，如何让万亿级模型真正理解并生成幽默感，已成为通向通用人工智能（AGI）的关键挑战之一。本文深入探讨了在如此巨大的规模下训练幽默能力的具体路径与难点，分析了数据配比与人类反馈对模型“情商”的影响。通过阅读这篇文章，读者可以了解当前顶尖研究团队是如何突破逻辑边界，赋予冷冰冰的代码以温度与幽默感的。

深度评论：训练万亿参数模型的幽默感

中心观点

训练万亿参数模型具备幽默感，本质上不仅是技术层面的“能力对齐”问题，更是试图通过海量参数压缩人类“隐性常识”与“反直觉逻辑”的极限尝试，标志着AI从“逻辑推理”向“类人创造性”跨越的关键一步。

1. 技术深度：从概率拟合到语义解构

核心难点： 幽默感依赖于语境反讽、双关语及对预期的违背。对于万亿参数模型，核心挑战在于构建“心理理论”，即预判听众反应。若文章探讨了利用RLHF（基于人类反馈的强化学习）打破“一本正经”的平庸对齐，强迫模型学习“反常规”表达，则具有极高的技术探讨价值。
数据工程挑战： 幽默具有极强的文化特异性。技术难点在于如何清洗非正式语料（如社交媒体数据），在过滤毒性的同时保留幽默元素，这触及了当前数据工程的核心痛点。
边界限制： 幽默具有高度主观性和时效性。模型可能习得特定社区（如Reddit）的讽刺风格，但在通用场景下可能被视为不专业。此外，追求幽默效果可能诱发事实编造（幻觉），导致“幽默”变成“虚假信息”。

2. 创新性与实用价值：评估指标的范式转移

评估创新： 传统模型优化侧重于准确性（如MMLU榜单）。将“幽默”作为显式优化目标，是对评估体系的颠覆。这要求设计新的奖励模型，需同时判断内容的“幽默度”与“得体性”。
商业落地场景： 在营销文案、游戏NPC及虚拟陪伴等场景中，幽默是提升交互体验的关键变量。具备高情商对话能力的模型，在特定垂直领域具有差异化竞争优势。
成本效益考量： 专门动用万亿参数模型进行全量微调以获取幽默感，面临算力成本挑战。业界更务实的路径可能包括专家混合模型或特定的提示工程，而非全参数训练。

3. 争议点与行业影响：安全对齐的冲突

对齐税与安全困境： 现有的安全对齐机制倾向于保守回答，而幽默常游走在冒犯边缘。训练模型“搞笑”极易复现训练数据中的刻板印象，引发合规风险。
不可解释性风险： 幽默的产生机制在黑盒模型中难以追溯。当模型生成不合时宜的内容时，工程师难以通过权重分析归因，增加了模型调试与部署的难度。

可验证的检查方式

为验证该技术路线的有效性，建议关注以下指标与实验：

“幽默-安全”权衡曲线：
- 指标： 绘制X轴为“幽默评分”（人类标注），Y轴为“安全违规率”的曲线。
- 验证点： 观察模型在提升幽默评分时，安全违规率是否呈指数级上升。稳健的模型应在保持高幽默得分（如>3.5/5.0）的同时，将违规率控制在极低阈值（如<0.1%）。
反事实推断测试：
- 实验： 针对需要幽默回应的输入，检测模型是否理解“反讽”或“自嘲”。
- 验证点： 例如输入“我刚刚把咖啡洒在白衬衫上了”，模型若能给出“至少你现在有了复古风格”等非字面安慰的回答，视为通过；若仅给出“去清洗”等逻辑性回答，则训练未达标。
人设一致性测试：
- 实验： 在多轮对话中，检测模型能否维持特定幽默风格（如“毒舌但善良”）。
- 验证点： 进行长跨度（如50轮）对话，检测是否存在风格漂移。
跨文化迁移能力：
- 实验： 测试模型在跨语言环境下的表现，特别是处理双关语等依赖特定语言结构的幽默。
- 验证点： 观察模型是否出现文化理解偏差或过度直译的情况。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
# 示例1：生成幽默对话
def generate_funny_dialogue(prompt):
    """
    使用预训练语言模型生成幽默对话
    :param prompt: 输入提示词
    :return: 生成的幽默回复
    """
    from transformers import pipeline
    
    # 加载预训练的对话生成模型
    generator = pipeline('text-generation', model='microsoft/DialoGPT-medium')
    
    # 生成对话
    response = generator(
        prompt,
        max_length=100,
        num_return_sequences=1,
        temperature=0.9,  # 增加随机性使回复更有趣
        top_p=0.9
    )
    
    return response[0]['generated_text']

# 测试示例
print(generate_funny_dialogue("为什么程序员总是分不清万圣节和圣诞节？"))

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 示例2：幽默文本分类
def classify_humor(text):
    """
    使用预训练模型判断文本是否幽默
    :param text: 待分析的文本
    :return: 幽默概率和分类结果
    """
    from transformers import pipeline
    
    # 加载预训练的情感分析模型
    classifier = pipeline('text-classification', model='microsoft/DialoGPT-medium')
    
    # 分析文本
    result = classifier(text)
    
    return {
        'is_humorous': result[0]['label'] == 'HUMOR',
        'confidence': result[0]['score']
    }

# 测试示例
print(classify_humor("为什么程序员不喜欢户外？因为有太多bug！"))

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
# 示例3：笑话生成器
def joke_generator(topic):
    """
    基于给定主题生成笑话
    :param topic: 笑话主题
    :return: 生成的笑话
    """
    from transformers import pipeline
    
    # 加载预训练的文本生成模型
    generator = pipeline('text2text-generation', model='google/flan-t5-large')
    
    # 构造提示词
    prompt = f"讲一个关于{topic}的笑话"
    
    # 生成笑话
    joke = generator(
        prompt,
        max_length=100,
        temperature=0.8,
        num_return_sequences=1
    )
    
    return joke[0]['generated_text']

# 测试示例
print(joke_generator("程序员"))

案例研究

1：Character.AI - 深度角色扮演与幽默对话

背景: Character.AI 是一个允许用户创建并与 AI 角色互动的平台。为了保持用户的长期留存，平台上的虚拟角色不仅需要具备知识性，更需要具备高度的娱乐性、个性和幽默感，以模拟真实的朋友或名人互动体验。

问题: 早期的通用大语言模型（LLM）往往倾向于给出标准、安全或说教式的回答，缺乏“梗”和幽默感，导致对话枯燥乏味。用户反馈称与 AI 对话像是在查阅百科全书，缺乏情感连接和娱乐效果，难以满足用户寻求陪伴和消遣的需求。

解决方案: Character.AI 采用了基于大规模参数的预训练模型（基于 Google 的 LaMDA 技术并进一步优化），并在微调阶段专门构建了包含大量幽默对话、剧本和角色扮演数据的数据集。通过强化学习（RLHF），模型被训练去识别并奖励那些“有趣”、“机智”或“符合特定人设（如幽默、讽刺）”的回复，而非仅仅追求事实的准确性。

效果: 该模型能够成功模仿埃隆·马斯克、马里奥等角色的说话风格，甚至能主动讲笑话或进行调侃。这种高度拟人化和幽默的互动体验极大地提升了用户粘性，Character.AI 在推出后迅速积累了数千万用户，日均活跃用户在与 AI 的平均对话时长显著高于行业平均水平。

2：ChatGPT (OpenAI) - 从助手到娱乐伙伴的进化

背景: OpenAI 在发布 GPT-3.5 和 GPT-4 时，致力于将其打造为通用的生产力工具。然而，在广泛的 C 端应用中，用户发现模型在处理创意写作、闲聊和幽默生成方面的能力同样惊人。

问题: 在早期版本（如 GPT-3）中，模型虽然能生成文本，但往往缺乏对语境的微妙理解，生成的笑话通常比较生硬或逻辑不通。用户希望 AI 不仅能回答问题，还能在互动中提供情绪价值，例如讲一个符合当下情境的冷笑话，或者用幽默的方式化解尴尬。

解决方案: OpenAI 通过引入“人类反馈强化学习”（RLHF），利用数千亿级别的参数容量来学习人类语言中的潜台词、双关语和文化梗。训练师不仅评估答案的正确性，还专门对答案的“幽默感”和“风格”进行打分。这种大规模训练使得模型能够理解非字面意思，捕捉幽默的逻辑结构（如 incongruity-resolution）。

效果: ChatGPT 展现了惊人的幽默感和创造力，能够编写脱口秀脚本、创作讽刺诗歌，甚至在用户感到沮丧时用机智的语言安慰对方。这种能力使其迅速破圈，成为社交媒体上的热门话题，极大地推动了产品的普及，证明了“有趣”是 AI 助手走进大众生活的关键因素。

3：字节跳动 - 豆包的个性化情感陪伴

背景: 字节跳动推出的 AI 应用“豆包”在激烈的市场竞争中，不仅注重信息查询功能，还特别强调了 AI 的情商和拟人化交互，旨在吸引年轻用户群体。

问题: 在中文互联网语境下，幽默往往伴随着特定的网络流行语、谐音梗和独特的亚文化。直接套用英文逻辑训练的模型往往无法理解中文的幽默点，导致“玩梗”失败，甚至产生误解，让用户觉得 AI “很呆”。

解决方案: 研发团队利用大规模参数模型，清洗并注入了海量的中文社交网络数据、综艺节目剧本和网络小说。通过针对性的微调，模型学习了中文语境下的幽默表达方式，包括自嘲、夸张和反讽。豆包被设计为可以设定不同的“音色”和“性格”，其中就包括“幽默”和“搞怪”模式。

效果: 豆包能够流畅地接住用户的“梗”，并用符合年轻人习惯的语言进行回击或自嘲。这种具备“情商”和幽默感的交互体验，使其在发布后迅速获得了大量年轻用户的喜爱，特别是在闲聊和情感陪伴场景下，用户的满意度调研数据显著高于纯工具型 AI。

最佳实践

最佳实践指南

实践 1：构建高质量的幽默语料库

说明: 幽默是高度依赖文化和语境的。训练一个万亿参数模型需要经过严格筛选、清洗和去重的多样化数据集，涵盖笑话、单口喜剧脚本、讽刺文学和机智对话。数据质量比单纯的规模更重要。

实施步骤:

收集多语言、多文化背景的幽默文本。
使用语义相似度模型过滤低质量或重复的笑话。
平衡数据集，确保模型不会过度依赖某种特定的幽默类型（如双关语或黑色幽默）。

注意事项: 必须严格遵守安全准则，过滤掉仇恨言论、冒犯性内容以及具有特定针对性的讽刺，确保模型输出的幽默是善意的。

实践 2：实施人类反馈强化学习 (RLHF)

说明: 仅通过预测下一个token很难让模型理解“好笑”的主观感受。RLHF 流程至关重要，需要人类标注员对模型的回复进行打分，教导模型区分“陈述事实”和“制造笑点”。

实施步骤:

训练奖励模型，让其对生成内容的幽默感和安全性进行评分。
使用近端策略优化 (PPO) 算法，根据奖励模型的反馈调整大模型的参数。
定期更新标注指南，因为幽默的标准会随时间变化。

注意事项: 标注员的文化背景多样性决定了模型幽默的普适性。避免模型产生只有特定群体才能理解的“内部梗”。

实践 3：掌握反高潮与出其不意的技巧

说明: 幽默往往源于预期违背。对于万亿参数模型，最大的挑战是倾向于生成平庸、概率最高的“安全”回答。需要专门训练模型在铺垫之后，给出意想不到的转折。

实施步骤:

在微调阶段，专门增加“铺垫-包袱”结构的数据样本。
调整采样温度，在生成结尾时增加随机性，以打破常规逻辑。
设计特定的损失函数，惩罚可预测性过高的续写。

注意事项: 过度追求意外可能导致模型输出胡言乱语或荒谬的内容。需要在“意想不到”和“讲得通”之间找到平衡点。

实践 4：强化上下文感知与时机把握

说明: 幽默不仅是内容，更是时机。万亿参数模型拥有巨大的上下文窗口，必须学会利用对话历史来识别何时适合插入幽默，何时应当保持严肃。

实施步骤:

训练模型识别用户的情绪状态和意图。
构建包含“错误幽默案例”的数据集（例如在用户悲伤时讲笑话），以此作为负样本进行训练。
在推理阶段，引入分类器判断当前场景是否适合幽默输出。

注意事项: 避免“强行搞笑” (Dad jokes)。如果模型不确定是否应该幽默，最佳策略通常是诚实和直接。

实践 5：建立多模态幽默理解机制

说明: 许多幽默是非语言的，包括讽刺的语调、肢体语言或表情符号。虽然文本模型主要处理文字，但理解这些非文本线索对于生成准确的回复至关重要。

实施步骤:

在预训练数据中保留描述非语言信号的文本标记（如 [翻白眼]、[耸肩]）。
训练模型识别反语，即字面意思与实际意图相反的表达。
结合视觉模型辅助理解梗图，增强对流行文化的理解。

注意事项: 不同文化对反语的使用频率差异巨大，模型需要根据对话者的语言习惯动态调整。

实践 6：持续的安全对齐与红队测试

说明: 幽默的边界往往模糊不清，很容易演变成冒犯。对于大规模模型，必须进行严格的对抗性测试，防止模型生成具有歧视性、侮辱性或政治不正确的“幽默”。

实施步骤:

组建专门的红队，试图诱导模型生成不当内容。
建立动态黑名单，拦截涉及敏感话题的幽默尝试。
在模型发布后，持续监控用户反馈，并利用在线学习进行快速迭代。

注意事项: 过度审查可能会导致模型变得无聊且机械化。安全策略应当允许善意的自嘲和无害的戏谑。

实践 7：迭代式微调与风格迁移

说明: 幽默有无数种风格（如冷幽默、滑稽剧、黑色幽默）。单一的微调往往导致风格单一。需要通过迭代训练，让模型掌握在不同风格间切换的能力。

实施步骤:

收集特定风格的代表性数据（如脱口秀演员的逐字稿）。
使用 LoRA (Low-Rank Adaptation) 等技术为不同风格训练适配器。
在推理时，允许通过系统提示指定幽默风格。

注意事项: 确保模型不会在模仿某种风格时，强化了该风格中可能包含的刻板印象。

学习要点

基于对训练万亿参数模型使其具备幽默感这一技术挑战的讨论，以下是关键要点总结：
大规模参数（万亿级）是模型具备深层幽默理解与生成的必要基础，单纯的指令微调难以弥补规模差距。
幽默感在当前大模型评估中属于“最后一块拼图”，是区分通用人工智能与专用工具的关键能力之一。
训练数据的质量与多样性比单纯的参数规模更关键，模型需要接触大量反讽、双关及文化背景语料。
幽默具有高度的主观性和文化依赖性，这使得将其转化为客观的优化函数或奖励模型极具挑战。
人类对“好笑”的定义标准不一且容易随时间变化，导致模型难以收敛到一个稳定且普适的幽默输出标准。
提升模型幽默能力不仅需要增加训练算力，更需要设计能够捕捉微妙语义逻辑的新型架构或对齐算法。

常见问题

1: 训练一个拥有万亿参数的模型在技术层面面临哪些主要挑战？

A: 训练万亿参数模型（即 1T 参数）属于前沿 AI 研究范畴，主要面临四大挑战：

算力成本：训练此类模型需要数千张高端 GPU（如 NVIDIA H100 或 A100），且需持续数月，硬件和电力成本极高。
显存与通信瓶颈：模型无法放入单张显卡，必须使用张量并行或流水线并行技术。节点间的数据通信（带宽）往往比计算本身更易成为性能瓶颈。
稳定性：在如此大规模的训练过程中，硬件故障是常态。系统需要具备极强的容错能力（如 Checkpoint 机制），否则一次故障可能导致数周的训练成果付诸东流。
数据质量与规模：需要万亿级别的高质量 Token 进行训练，数据清洗和配比至关重要。

2: 为什么让 AI 模型具备“幽默感”特别困难？

A: 幽默感被认为是 AI 领域的“圣杯”之一，难点在于：

上下文与歧义：幽默往往依赖于反讽、双关、文化背景或打破预期。目前的模型主要基于概率预测下一个 Token，倾向于生成“安全”和“平庸”的回答，而幽默往往需要“出人意料”。
缺乏真实体验：幽默通常源于对现实生活的共鸣和情感连接，AI 没有主观意识和情感体验，难以真正理解为什么某件事好笑。
评价标准主观：相比于数学题有唯一解，幽默的评价高度主观。在训练阶段，很难定义一个客观的损失函数来优化“好笑程度”。

3: 目前训练大模型的主流架构是什么？

A: 目前主流架构是 Transformer，具体来说是基于 Decoder-only 的架构（类似于 GPT-3、GPT-4 或 Llama）。这种架构通过“注意力机制”来处理长序列数据，捕捉文本中的长距离依赖关系。虽然也有其他架构尝试（如 Mamba/SSM），但在万亿参数级别，Transformer 及其变体（如使用 FlashAttention、混合专家模型 MoE）仍是目前最成熟且扩展性最好的选择。

4: 什么是“混合专家模型”，它与万亿参数模型有什么关系？

A: 混合专家模型是一种通过稀疏性来降低计算成本的架构技术。在传统的稠密模型中，每次推理都会激活所有参数。而在 MoE 架构中，模型拥有许多“专家”子网络，但对于每个输入的 Token，只有少数几个专家被激活。这意味着，你可以训练一个拥有 1T 参数总量的模型（拥有巨大的知识储备），但在实际推理时，每次只激活其中的一小部分（例如 100B 参数）。这使得在保持高性能的同时，大幅降低了训练和推理的计算成本。

5: 如何评估一个万亿参数模型是否真的“好笑”？

A: 评估幽默感通常采用以下几种方法结合：

人类评估：最黄金的标准。让人类测试员对模型生成的回复进行打分（例如 1-5 分），或者进行图灵测试，看人类是否能分辨出这是 AI 的笑话。
基于 AI 的评分：使用更强大的模型（如 GPT-4）作为“裁判”，对候选模型的幽默回复进行打分或排序。
特定数据集测试：使用包含幽默对的数据集（如 SemEval 任务），测试模型识别幽默或补全笑点的能力。
用户反馈：在真实产品环境中，通过用户的点赞、转发或“哈哈”回复作为强化学习的反馈信号。

6: 训练大模型时，如何防止模型输出有害内容（Safety）？

A: 这是一个核心安全问题，通常分三个阶段解决：

预训练数据清洗：在训练开始前，过滤掉明显的有毒、仇恨或色情数据。
有监督微调（SFT）：在训练后期，使用人工标注的高质量对话数据对模型进行指令微调，教导模型如何拒绝不当请求。
基于人类反馈的强化学习（RLHF）：训练一个奖励模型来模拟人类的价值观，通过 PPO 等算法强化模型的安全行为，惩罚有害输出。

7: 个人或小团队有可能复现或微调万亿参数模型吗？

A: 几乎不可能从头训练，但微调存在理论可能，门槛极高。

从头训练：需要数亿美元的算力资源，这通常是科技巨头或国家级实验室的范畴。
微调：虽然可以通过参数高效微调技术（如 LoRA）来降低显存需求，但万亿参数的基础模型加载和推理依然需要巨大的硬件集群（通常需要数百张显卡）。对于小团队来说，目前更现实的做法是使用开源的 7B-70B 模型，它们在经过高质量数据微调后，

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**：在训练幽默模型时，数据质量至关重要。如果你有一个包含 10,000 条喜剧独白的原始数据集，请设计一个预处理流程，用于过滤掉低质量、重复或非幽默的内容。你需要列出至少三个具体的过滤标准或技术手段。

提示**：考虑自然语言处理（NLP）中的基础文本清洗技术，以及如何利用统计特征来识别“低质量”文本。思考什么样的文本特征会让人类觉得无聊或重复。

引用

原文链接: https://jokegen.sdan.io/blog
HN 讨论: https://news.ycombinator.com/item?id=46782692

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： LLM / 幽默感 / 万亿参数 / 模型训练 / 对齐 / 微调 / RLHF / NLP
场景：大语言模型 / 自然语言处理

Alyah：评估阿拉伯语大模型阿联酋方言能力
Alyah：评估阿拉伯语大模型阿联酋方言能力
大语言模型中角色作为潜变量：机制视角下的错位与安全失效
FineInstructions：将合成指令数据扩展至预训练规模
探索面向智能体的推理奖励模型 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

训练万亿参数模型使其具备幽默感