LLM 写作中的常见套路与模式分析
基本信息
- 作者: walterbell
- 评分: 35
- 评论数: 10
- 链接: https://tropes.fyi/tropes-md
- HN 讨论: https://news.ycombinator.com/item?id=47291513
导语
随着大语言模型的普及,文本生成的门槛显著降低,但模型固有的行文模式往往导致内容千篇一律。识别并规避这些常见的“套话”,对于提升文本的原创性与可读性至关重要。本文梳理了 LLM 写作中高频出现的陈词滥调与句式结构,旨在帮助读者在编辑与校对阶段精准识别机器痕迹,从而打磨出更具人类质感与深度的内容。
评论
深度评论:LLM写作套路的技术病理与文体异化
1. 核心观点与支撑体系
中心论点: 《LLM Writing Tropes.md》不仅是一份“AI黑话”清单,更是一份关于统计语言模型在概率最优化的驱动下,如何陷入“修辞平庸陷阱”的技术病理报告。它揭示了当前LLM在追求“安全回答”与“似人文本”的过程中,意外产生了一种高度可识别的、过度平滑且缺乏认知棱角的“机器媚俗”风格。
核心支撑逻辑:
- 概率最大化的副作用: LLM的训练本质是“下一个词预测”,这导致模型倾向于选择高频、安全且语义密度低的词汇(如 “delve into”, “tapestry”, “testament”),而非精准、犀利或具有个人风格的低频词。
- RLHF(人类反馈强化学习)的过度对齐: 为了符合人类标注员对“有帮助”和“无害”的预期,模型被训练成一种礼貌、说教且圆滑的“客服人格”。这种监督微调(SFT)过程抹平了文本的棱角,使得输出呈现出一种统计学上的“平庸极值”。
- 逻辑连贯性的幻觉: 文章指出LLM倾向于使用形式主义的连接词(如 “Furthermore”, “It is important to note”)来伪装逻辑深度。这种结构上的严谨往往掩盖了内容实质上的空洞,即“用修辞的连贯性替代了逻辑的严密性”。
反例与边界条件:
- 推理模型的修正: 随着OpenAI o1或DeepSeek R1等推理模型的出现,经过“思维链”内化训练的模型开始展现出“自我反思”能力,能够主动删除冗余修饰词,输出更接近数学证明般的直接文本,正在打破传统的“Tropes”。
- 风格微调的突破: 针对特定文学风格或角色扮演进行微调的小型模型(如Llama 3-70B的特定变体),能够有效规避通用的AI语调,甚至模仿出极具人类个性的口语化表达。
2. 多维度深入评价
2.1 内容深度与论证严谨性:从“症状描述”到“病理分析” 该文档的价值在于其敏锐的观察性,它成功捕捉到了自然语言处理(NLP)中的“高频共现”现象。然而,其局限性在于往往止步于现象学层面的描述。
- 批判性视角: 文档更多是在列举“症状”(如特定的词汇选择),而未深入解释“病理”。例如,它未深入探讨Transformer架构中的注意力机制是如何导致语义向特定高概率区域坍塌的。从技术角度看,这些Tropes本质上是模型在缺乏精确世界模型时,利用语言相关性进行的一种“语义填充”行为。
2.2 实用价值与对实际工作的指导意义 对于AI工程师和提示词工程师而言,这是一份极具价值的**“负面约束清单”**。
- 提示工程指导: 它揭示了为何通用的Prompt(如“写一篇文章”)必然导致AI味生成。要获得高质量的类人文本,Prompt必须包含否定性约束,例如明确要求“避免使用隐喻”、“禁止使用商务套话”、“使用短句和简单的词汇”。
- 评估基准构建: 为自动化评估LLM输出提供了新的定性指标——“陈词滥调密度”。如果一个模型的输出充满了文档中列举的Tropes,说明其创造力阈值过低或对齐过度。
2.3 创新性:定义“AI感”的量化标准 该文档的创新性不在于发现了新算法,而在于将模糊的“AI感”进行了结构化解构。它将“感觉”拆解为可量化的词汇列表和句式模版,使得“AI检测”从单纯的分类器问题转向了文体学分析问题。它提出了一个深刻的观点:AI文本的问题不在于它是错误的,而在于它是“媚俗”的——即一种缺乏真实情感体验的、统计学上的模仿品。
2.4 可读性与结构分析 文档通常采用鲜明的对比式结构(人类写法 vs. AI写法),逻辑清晰,易于传播。这种写法虽然直观,但有时容易陷入“为了举例而举例”的猎奇陷阱,使得读者将其视为“笑话集锦”而忽视了背后的技术必然性。
2.5 行业影响与争议:语言精英主义还是效率标准?
- 行业影响: 该文档直接推动了“去AI化”工具的发展。许多旨在降低AI检测率的工具,其核心算法原理正是基于识别和重写这些特定的Tropes。
- 争议点: 这种批判是否隐含了**“语言精英主义”**?许多被标记为“AI味”的表达(如结构清晰的总结、中立的语调),其实是现代商务和学术沟通追求的高效标准。LLM可能只是无情地暴露了人类在体制化写作中本身就存在的“废话文学”倾向,模型只是完美习得了这种职业规范而已。
3. 总结与展望
《LLM Writing Tropes.md》是理解当前生成式AI局限性的一面镜子。它提醒我们,“像人一样写作”不仅仅是语法正确,更包含了对语境的微妙感知、对规则的适度打破以及个性化的认知偏差。
随着模型从“下一个词预测”向“思维链推理”演进,未来的LLM可能会逐渐
代码示例
| |
| |
| |
案例研究
1:Salesforce(营销文案生成)
1:Salesforce(营销文案生成)
背景:
Salesforce 作为一家全球领先的客户关系管理(CRM)软件提供商,其营销团队需要持续产出大量高质量的内容,包括博客文章、白皮书、电子邮件营销文案以及社交媒体帖子。随着产品线的扩展和市场的细分,对内容的需求量呈指数级增长。
问题:
传统的人工写作模式面临瓶颈。一方面,专业文案人员的产出速度难以跟上营销活动的发布节奏;另一方面,针对不同行业(如金融、医疗、零售)定制化内容时,往往存在风格不统一或缺乏行业特定术语的问题。单纯依赖初级写手又容易导致内容深度不足,无法体现 Salesforce 的专业权威性。
解决方案:
Salesforce 引入了基于大语言模型(LLM)的辅助写作工具,集成到其内部内容管理系统中。该工具并非完全替代人工,而是作为“副驾驶”。营销人员输入核心主题、目标受众和关键卖点,LLM 会生成 3-5 个不同风格(如专业型、幽默型、紧迫型)的草稿。资深文案随后对这些草稿进行润色和事实核查,确保符合品牌调性。
效果:
- 效率提升:营销文案的初稿生成时间缩短了 50%-70%,使团队能够处理更多的并发项目。
- 个性化规模:成功实现了大规模的个性化营销,能够快速为不同垂直领域的客户生成高度相关的内容,邮件打开率和点击率均有显著提升。
- 创意激发:文案人员表示,AI 提供的草稿常能提供意想不到的角度,打破了写作时的思维定势。
2:Klarna(客户服务与沟通自动化)
2:Klarna(客户服务与沟通自动化)
背景:
Klarna 是一家先买后付(BNPL)金融科技公司,业务遍及全球 45 个市场,拥有超过 1.5 亿消费者。每天,其全球客服团队需要处理数十万次客户咨询,涉及支付状态、退款政策、账户安全等各类问题。
问题:
随着用户激增,人工客服成本高昂且响应时间难以保证。特别是在购物旺季(如黑色星期五),咨询量爆发式增长,导致排队时间过长,严重影响用户体验。此外,不同客服人员的回复质量参差不齐,有时难以保持一致的品牌形象。
解决方案:
Klarna 部署了基于 LLM 的 AI 助手,接管了原本由人工处理的即时通讯和聊天窗口。该模型经过了 Klarna 特定的金融知识库和过往数百万条真实对话记录的微调。它不仅能理解复杂的自然语言查询,还能模仿 Klarna 品牌的语调进行拟人化回复。对于无法解决的复杂问题,AI 会自动整理上下文并转接给人工客服。
效果:
- 成本与人力优化:该 AI 助手在上线后不久便承担了相当于 700 名全职客服的工作量,预计每年可为 Klarna 节省 4000 万美元的运营成本。
- 响应速度:客户咨询的平均响应时间从 11 分钟缩短至 2 分钟,且实现了 24/7 的全天候即时服务。
- 满意度持平:根据官方数据,AI 助手处理的服务工单,其客户满意度与人工客服持平,甚至在解决简单查询时更优。
3:某跨国 SaaS 公司(内部文档与代码库维护)
3:某跨国 SaaS 公司(内部文档与代码库维护)
背景:
一家拥有数千名员工的跨国 SaaS 企业,其核心产品代码库庞大且复杂,伴随产生了海量的技术文档、API 说明和内部 Wiki。由于产品迭代速度快,文档往往滞后于代码更新,导致开发人员和新入职员工在查找信息时极为困难。
问题:
技术文档的维护主要由开发人员兼职负责,由于缺乏激励和写作技巧,文档往往充斥着晦涩的术语,或者缺乏上下文解释(即“为什么这样写”)。这种“文档腐烂”现象导致新员工入职培训周期长,跨团队协作效率低,重复造轮子的现象严重。
解决方案:
该公司引入了基于 LLM 的自动化文档生成与审查流水线。当开发人员提交代码(Pull Request)时,LLM 会自动分析代码变更,生成或更新对应的 API 文档和注释。此外,团队还建立了一个内部问答机器人,连接了代码库和 Wiki。员工可以用自然语言提问(例如:“如何在微服务 A 中配置 OAuth 认证?”),LLM 会检索代码和旧文档,生成一份清晰、连贯的步骤指南,而不是简单的链接堆砌。
效果:
- 文档时效性:文档与代码的同步率大幅提升,减少了因文档过时导致的误操作。
- 知识检索效率:开发人员寻找解决方案的时间减少了约 40%,新员工达到独立工作状态的周期缩短了 2 周。
- 知识沉淀:通过 AI 将碎片化的代码逻辑转化为可读性强的自然语言描述,有效地降低了团队间沟通的门槛,减少了知识流失。
最佳实践
最佳实践指南
实践 1:避免过度使用特定的连接词和过渡语
说明: LLM 在生成文本时,倾向于过度使用诸如 “Furthermore”(此外)、“Moreover”(而且)、“Additionally”(另外)、“It is important to note”(值得注意的是)等连接词。这种机械的过渡方式会让文章显得生硬、不自然,且具有明显的 AI 生成痕迹。优秀的写作通常依靠逻辑流和语境自然过渡,而非依赖显式的连接词。
实施步骤:
- 在 Prompt 中明确指示 AI 禁止使用特定的列表词汇,例如:“不要使用 ‘Furthermore’, ‘Moreover’, ‘Additionally’ 等词”。
- 要求 AI 使用更自然的过渡方式,例如通过上下文逻辑直接展开论述。
- 在生成后的审查阶段,搜索这些高频词并手动替换或删除。
注意事项: 不要完全禁止连接词,而是要求其“像人类一样自然使用”,重点在于消除那种为了凑字数或显式结构而生成的冗余连接。
实践 2:打破“总-分-总”的刻板结构
说明: LLM 默认倾向于生成高度结构化、对称的文章,通常是:引言(列出三点)-> 正文第一段 -> 正文第二段 -> 正文第三段 -> 结论(总结上述三点)。这种结构虽然清晰,但非常死板,缺乏人类写作的灵活性和节奏感。
实施步骤:
- 在 Prompt 中指定文章的结构类型,例如“使用倒金字塔结构”或“叙事性结构”。
- 要求 AI 在引言中不要列出所有要点,而是在正文中逐步展开。
- 指示结论部分不仅仅是总结,而是提供新的视角、行动号召或引人深思的问题。
注意事项: 鼓励 AI 使用长短不一的段落,打破视觉上的单调感,使文章看起来更像是由人类思维流动形成的。
实践 3:消除“道德说教”和“平衡性偏见”
说明: 当被要求撰写有争议的话题或对某个现象进行评价时,LLM 往往会采取一种“和事佬”的姿态,强调“虽然 X 有优点,但也有缺点”,或者以“这把双刃剑提醒我们要负责任地使用 AI”等陈词滥调结尾。这种写作缺乏鲜明的观点和深度。
实施步骤:
- 在 Prompt 中明确立场,例如:“请站在 [特定立场] 的角度撰写这篇文章”或“请批判性地分析这一现象,不要保持中立”。
- 要求 AI 深入挖掘单一论点的复杂性,而不是面面俱到地列举正反两面。
- 指示 AI 删除任何关于“伦理考量”或“负责任使用”的通用结尾段落,除非这是文章的核心主题。
注意事项: 确保生成的观点具有论据支持,而不是为了激进而激进,目的是打破那种四平八稳的 AI 腔调。
实践 4:丰富词汇表现,避免“语义重复”
说明: LLM 经常在同一个句子或相邻的句子中使用含义过于相近的词汇,例如 “completely finished”(完全结束)、“future plans”(未来的计划)、" collaborate together"(协作合作)。这种同义反复是人类写作中通常会避免的赘述。
实施步骤:
- 在 Prompt 中添加指令:“避免冗余和同义反复,确保每个词都有其独特的作用”。
- 使用“重写”或“润色”指令,专门针对生成的草稿进行精简。
- 要求 AI 使用更具体、更形象的动词和名词,替代笼统的抽象词汇。
注意事项: 有时候 LLM 会为了强调而重复,需要区分强调性重复和无意义的语义重复,重点在于消除后者。
实践 5:注入主观声音与具体细节
说明: AI 生成的文本往往缺乏个人色彩,读起来像是百科全书词条或企业公关稿,缺乏具体的感官细节、个人轶事或独特的比喻。人类写作通常包含主观体验和具体案例。
实施步骤:
- 在 Prompt 中提供一个具体的“人设”或“作者画像”,例如:“你是一位在这个行业工作了 20 年的资深工程师,对目前的趋势持怀疑态度”。
- 要求 AI 在论述中包含具体的假设性案例、数据引用或类比。
- 指示 AI 使用第一人称视角(“我认为”、“我观察到”)来增强主观性。
注意事项: 确保注入的主观声音与文章的主题相符,避免出现过于突兀或不合逻辑的个人情感表达。
实践 6:控制句式变化与节奏
说明: LLM 生成的句子往往长度和结构非常相似,通常遵循“主语-谓语-宾语”的标准顺序,缺乏长短句的交替和倒装等修辞手法。这导致文章读起来平淡无味,缺乏节奏感。
实施步骤:
- 在 Prompt 中明确要求:“使用长短不一的句子,创造阅读节奏感”。
- 要求 AI 在段落中使用简短有力的句子来强调重点,或使用复杂的复合句来解释
学习要点
- 基于提供的文件名和来源(Hacker News),以下是关于“LLM写作套路/特征”讨论中通常得出的关键要点总结:
- LLM倾向于使用过度结构化、平衡且重复的句式(如“一方面……另一方面……”),缺乏人类写作的自然韵律和变化。
- LLM 常使用特定的“填充词”或“连接词”(如“值得注意的是”、“重要的是”、“总之”),这些词在人类写作中出现的频率较低。
- LLM 的输出往往带有一种“说教感”或“道德化”的语气,倾向于在结尾进行总结或升华,而非保持中立或开放式的陈述。
- LLM 倾向于使用陈词滥调(Clichés)和过于完美的隐喻,缺乏独特的、基于个人经验的生动细节。
- LLM 的写作风格通常过于平滑、礼貌且缺乏棱角,避开了人类作者常表现出的强烈观点、犹豫或非正式的口语表达。
- LLM 在处理长文本时,往往难以维持复杂的逻辑线索,导致后半部分的内容质量下降或出现重复。
常见问题
1: 为什么大型语言模型(LLM)生成的文本往往看起来千篇一律或风格重复?
1: 为什么大型语言模型(LLM)生成的文本往往看起来千篇一律或风格重复?
A: 这种现象通常被称为“模式化写作”或“陈词滥调”。主要原因在于 LLM 的核心工作机制是基于概率预测下一个 token(字或词)。模型在训练过程中学习了海量文本的平均特征,倾向于收敛到统计学上最“安全”、最常见或概率最高的表达路径。此外,现代大模型通常经过“人类反馈强化学习”(RLHF)的微调,这种过程旨在让输出更安全、更有帮助,但也往往导致模型倾向于生成四平八稳、语气礼貌但缺乏个性或尖锐棱角的“标准化”文本,从而在整体上呈现出一种同质化的风格。
2: 什么是 LLM 写作中的“废话文学”或“过度解释”现象?
2: 什么是 LLM 写作中的“废话文学”或“过度解释”现象?
A: 这是指 LLM 在生成文本时,倾向于使用大量词汇来传达极少的信息量。模型往往会过度使用填充词、重复的形容词以及冗长的句式结构。例如,它可能会用一段话来反复确认一个简单的观点,或者在不需要道歉的情境下频繁道歉。这种现象源于模型试图通过增加上下文相关性来提高连贯性,以及 RLHF 训练中鼓励模型表现得“详尽”和“乐于助人”的倾向,导致其难以做到简洁明了。
3: LLM 生成的文本通常有哪些明显的语言特征或“指纹”?
3: LLM 生成的文本通常有哪些明显的语言特征或“指纹”?
A: 除了语气平淡外,LLM 文本通常具有以下显著特征:
- 特定的连接词:频繁使用“此外”、“再者”、“值得注意的是”、“综上所述”等逻辑连接词,有时甚至在不必要的场合出现。
- 列表式结构:非常喜欢使用项目符号或编号列表来组织信息,即使是在非正式的对话中。
- 道德说教与平衡:在讨论争议性话题时,倾向于使用“一方面……另一方面……”的句式,试图展示极端的平衡,避免做出明确的判断。
- 特定的形容词堆砌:倾向于使用“至关重要的”、“全面的”、“深入的”、“多方面的”等大词,而不是具体、形象的描述。
4: 为什么 LLM 总是喜欢使用“首先、其次、最后”这样的结构,即使是在简短的回答中?
4: 为什么 LLM 总是喜欢使用“首先、其次、最后”这样的结构,即使是在简短的回答中?
A: 这种结构化的输出是模型训练数据中大量存在的教科书、学术论文、技术文档以及高质量问答数据特征的体现。RLHF 训练通常奖励逻辑清晰、层次分明的回答。因此,模型学会了将这种“清单式”或“论文式”的结构作为高质量回答的默认模板。即便在只需要简单回答“是”或“否”的情况下,模型也可能因为这种惯性而生成一段带有总结陈词的结构化文本。
5: 如何在提示词中避免 LLM 生成这种机械化的“AI 味”文本?
5: 如何在提示词中避免 LLM 生成这种机械化的“AI 味”文本?
A: 为了打破 LLM 的默认写作模式,可以通过以下方式调整提示词:
- 设定特定的人设:明确要求模型扮演特定的角色(如“你是一个脾气暴躁的资深评论家”或“你是一个说话简短的程序员”),以改变其默认的礼貌助手语气。
- 要求特定的风格:明确指示“不要使用陈词滥调”、“不要使用‘首先、其次’”、“使用口语化表达”或“模仿某位特定作家的风格”。
- 限制输出结构:明确要求“不要使用列表”或“用一段话概括”。
- 提供少样本示例:在提示词中提供你期望风格的示例,让模型模仿其语调和句式,而不是依赖其默认的预测模式。
6: LLM 写作中的“幻觉”与写作模式有什么关系?
6: LLM 写作中的“幻觉”与写作模式有什么关系?
A: 虽然幻觉主要指事实性错误,但它与写作模式密切相关。LLM 的写作模式基于“流畅性”而非“真实性”。为了让文本看起来通顺、符合逻辑,模型可能会根据概率编造并不存在的引用、数据或案例,以填补叙事的空白。这种为了维持文本表面连贯性和“权威感”而进行的编造,是 LLM 写作模式中最危险的特征之一。它倾向于表现得非常自信,即使内容完全是虚构的。
7: 为什么 LLM 在处理长文本时,往往会忘记开头的设定或导致结尾质量下降?
7: 为什么 LLM 在处理长文本时,往往会忘记开头的设定或导致结尾质量下降?
A: 这与模型的“上下文窗口”和注意力机制有关。虽然现代模型的上下文窗口越来越大,但在生成极长文本时,模型对早期细节的“注意力”会逐渐衰减。随着生成的 token 越来越多,模型更容易受到近期生成内容的影响,从而在逻辑上偏离最初的指令,或者在结尾处出现重复、总结性陈述增多的情况。这也是为什么 LLM 擅长写开头和中间段落,但往往难以写出有力且不落俗套的结尾。
思考题
## 挑战与思考题
### 挑战 1: [简单]
问题**: 请阅读一段由 LLM 生成的文本,找出其中至少 3 个常见的“AI 腔”特征(如过度使用“首先”、“其次”、“综上所述”等连接词,或使用“至关重要”、“不可或缺”等高频形容词)。
提示**: 关注文本的结构和用词习惯,LLM 倾向于使用固定的逻辑连接词和强调性形容词,这些在人类写作中可能更自然或多样化。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
相关文章
- AI提示词框架对比分析:掌握与大模型高效沟通的关键方法
- AI提示词框架深度对比:掌握与大模型沟通的关键方法
- 为何AI写作平庸且危险:语义消融机制解析
- 为什么 XML 标签对 Claude 模型如此关键
- LLM效果优化:用户预先定义验收标准 本文由 AI Stack 自动生成,包含深度分析与可证伪的判断。