CREATE：评估大语言模型的联想创造力

基本信息

ArXiv ID: 2603.09970v1
分类: cs.CL
作者: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
PDF: https://arxiv.org/pdf/2603.09970v1.pdf
链接: http://arxiv.org/abs/2603.09970v1

导语

联想创造力被视为大语言模型具备高水平智能的关键特征，本文提出了CREATE基准以评估模型在知识库中构建概念路径的联想推理能力。该任务通过平衡特异性和多样性来模拟假设生成过程，实验发现前沿模型虽表现优异，但现有的思维链与提示技巧提升有限，且无法从摘要确认模型在具体推理路径上的失败模式。这一难以饱和的测试平台，为未来探索提升模型发散性思维与联想机制提供了新的评估方向。

摘要

以下是该内容的中文总结：

CREATE基准：评估大语言模型的联想创造力

本文介绍了CREATE，这是一个旨在评估大语言模型（LLM）联想推理能力（即创造性核心）的新基准。

任务机制：CREATE要求模型在自身知识库中，生成连接特定概念的路径集合。优秀的回答需要兼顾高特异性（连接的独特性与紧密度）和高多样性（路径之间的差异），且生成的有效路径越多，得分越高。
价值与挑战：该任务模拟了“假设生成”等现实创造力任务，具有巨大的搜索空间。由于答案高度多样且客观可评，使得基准很难被模型轻易饱和。
实验发现：前沿模型表现出了更高的创造力，但思维链模型即使拥有较高的Token预算，也并非总是更有效。现有的创意提示技术仅带来有限提升。
意义：CREATE为开发提升模型联想创造力新方法提供了一个有效的测试平台。

论文评价：CREATE基准与大语言模型的联想创造力

总体评价

《CREATE: Testing LLMs for Associative Creativity》一文针对大语言模型（LLMs）评估中日益严重的“饱和”与“同质化”问题，提出了一种名为CREATE的新基准。该研究不仅填补了当前LLM在“联想推理”这一创造力核心维度上的评估空白，更通过精巧的机制设计，将难以捉摸的“创造力”量化为可计算的路径生成任务。从学术角度看，该文成功地将认知心理学中的创造性理论迁移至NLP领域；从应用角度看，它为AI辅助科学发现和复杂问题求解提供了新的测试平台。

以下是基于七个维度的深入分析：

1. 研究创新性

论文声称：CREATE通过要求模型连接两个远端概念，不仅测试了知识检索，更测试了联想推理能力。
证据：研究设计了需要“多跳”连接的任务（如连接“Einstein”和“Ostrich”），并引入了基于路径特异性和多样性的双重评分机制。
推断：该研究的核心创新在于将“创造力”从开放式的文本生成（如写诗）转化为受约束的图路径搜索。这种转化极大地降低了评估的主观性。相比于传统的BLEU/ROUGE分数或昂贵的人工评估，CREATE利用NLP中成熟的实体链接和关系抽取技术作为评分器，实现了对创造力这一“软指标”的“硬测量”。

2. 理论贡献

论文声称：联想创造力是智力的核心组成部分，现有的LLM评估忽略了这一点。
证据：引用Mednick（1962）的联想理论，即创造力是将遥远概念进行远程连接的能力。CREATE基准直接对应这一理论构念。
推断：该研究在理论层面将LLM的能力评估从“概率预测”提升到了“认知模拟”的高度。它暗示了一个关键假设：LLM的潜在推理空间是一个高维语义图。如果模型在CREATE上得分低，说明其虽然掌握了概率分布，但未能构建出连贯的语义拓扑结构。这为理解LLM的“推理黑盒”提供了新的理论视角：推理即图上的路径寻优。

3. 实验验证

论文声称：即使是最先进的前沿模型，在CREATE任务上的表现也远未达到饱和，且存在显著的性能差异。
证据：实验结果显示，虽然GPT-4等模型表现优于旧模型，但在生成有效路径的数量和多样性上，与人类上限或理论最大值仍有巨大差距。
推断与假设检验：
- 关键假设：评分器（如实体链接模型）本身是无偏且准确的。若评分器无法识别模型生成的正确但冷门的连接，会导致假阴性。
- 验证方式：建议进行消融实验，人为注入噪声或使用更强的Oracle模型（如GPT-4）重新评分GPT-3.5的输出，以评估评分器对模型能力的低估程度。

4. 应用前景

论文声称：CREATE模拟了科学假设生成等现实任务。
证据：论文示例展示了如何通过连接看似无关的医学概念来生成潜在的研究假设。
推断：该基准具有极高的筛选价值。在AI for Science（AI4S）领域，我们不仅需要模型总结现有知识，更需要其发现“知识断层”。CREATE提供了一个量化指标，用于筛选具备“科学直觉”的模型。未来可应用于药物重定位（Drug Repurposing）或材料科学中性质预测的路径推理。

5. 可复现性

论文声称：基准构建过程透明，数据集将开源。
证据：论文详细描述了如何从ConceptNet等知识库中采样概念对，以及如何构建评分函数。
推断：该研究的复现性高度依赖于底层知识库（KB）的覆盖率。
- 潜在失效条件：如果模型生成的路径涉及训练数据中存在但ConceptNet中缺失的常识，会被判为无效。
- 验证方式：复现研究时应对比不同KB（如Wikidata vs ConceptNet）作为评分标准时的模型表现差异，以排除基准本身的知识盲区带来的偏差。

6. 相关工作对比

论文声称：现有基准（如MMLU, HumanEval）主要测试记忆或编码，无法测试创造力。
证据：对比显示，模型在MMLU上的得分与在CREATE上的得分并不完全正相关，甚至出现倒置（某些小模型在联想任务上表现更好）。
推断：CREATE与现有的“发散思维”生成任务（如Alternative Uses Task）相比，优势在于客观性。AUT通常需要人类打分，难以扩展；而CREATE实现了自动化。劣势在于，CREATE可能偏向于收敛性联想（寻找正确路径），而非纯粹的发散性联想（产生无厘头的创新）。

7. 局限性和未来方向

论文声称：当前模型在生成“高特异性”路径时仍面临困难。
证据：模型倾向于产生通用的、高频的连接，而非新颖的连接。
推断：
- 局限性：CREATE可能受到**“安全对齐”**的干扰。LLM被训练避免产生幻觉或荒谬的连接，而创造力往往伴随着看似荒谬的初始跳跃

技术分析

以下是对论文《CREATE: Testing LLMs for Associative Creativity》的深入分析。

CREATE: Testing LLMs for Associative Creativity 深度分析报告

1. 研究背景与问题

核心问题

本研究旨在解决大语言模型（LLM）在联想创造力方面的评估难题。具体而言，作者关注的是模型在给定两个看似无关的概念（如“黄瓜”和“警报”）时，能否通过生成中间概念，构建出一条或多条有意义的、合乎逻辑的语义链条将二者连接起来。

研究背景与意义

创造力的本质：在认知心理学和人工智能中，创造力往往被定义为新颖性与实用性的结合。而“联想创造力”是创造力的核心认知机制之一，即通过远程联想将不相关的概念联系起来。
LLM的局限：当前的LLM虽然展现了强大的生成能力，但它们主要基于概率预测下一个词，这导致它们倾向于产生高频、陈词滥调的连接。现有的评估基准（如MMLU、GSM8K）主要关注事实回忆或逻辑推理，缺乏对模型“发散性思维”和“知识图谱中远程跳跃能力”的有效测试。
评估缺口：传统的创意写作评估（如写故事）难以客观量化，而现有的远程联想测试（RAT）通常只有单一标准答案，容易被模型通过训练数据记忆而非真实推理来通过。

现有方法的局限性

饱和性：现有的许多基准测试很快就被最先进的模型“刷满”了，失去了区分度。
主观性：开放式生成任务通常依赖人类或GPT-4进行打分，成本高昂且存在主观偏差。
缺乏结构化：简单的问答格式无法探测模型内部知识结构的连接强度和广度。

为什么重要

CREATE填补了评估LLM“高阶认知能力”的空白。它不仅仅测试模型“知道什么”，更测试模型“如何通过非显性路径连接知识”。这对于推动AI从单纯的“模式匹配”向真正的“创造性推理”发展具有重要意义。

2. 核心方法与创新

核心方法：CREATE基准

作者提出了一个名为CREATE（Creative REtrieval and Associative TEst）的基准测试。

任务定义：给定一个源概念和一个目标概念，模型需要生成一个有序的概念序列（路径），使得序列中相邻概念在语义上高度相关，从而建立从源到目标的连接。
示例：源词“医生”，目标词“香蕉”。模型可能生成：“医生 -> 苹果（水果/健康） -> 香蕉”。

技术创新点与贡献

客观且可扩展的评估指标：
- 特异性：衡量连接的紧密程度。利用预训练的嵌入模型（如Conceptionary）计算概念间的余弦相似度。
- 多样性：衡量生成路径之间的差异。计算路径中概念集合的并集与交集差异，惩罚重复的中间节点。
- 综合得分 = 特异性 × 多样性，且鼓励生成多条有效路径。
大规模数据构建：
- 通过WordNet等知识图谱挖掘具有较短图论距离（Shortest Path Length）但在语义上差异巨大的概念对，确保任务既有解又需要联想跳跃。
提示策略：
- 设计了专门的提示词，要求模型以JSON格式输出路径，便于自动解析。

方法的优势

抗饱和：由于搜索空间巨大，模型很难通过死记硬背覆盖所有可能的连接，迫使模型进行真正的推理。
低成本：无需人工标注，完全依靠自动化指标进行评估，可无限扩展测试集。

3. 理论基础

理论依据

远程联想理论：该测试基于Mednick（1962）的理论，即创造性思维是将非关联元素联想起来的能力。
知识图谱游走：假设LLM的内部知识存储类似于一个巨大的图结构。CREATE任务实际上是在测试模型在这个图上进行启发式搜索的能力，寻找那些权重（共现频率）较低但存在语义路径的边。

算法设计

评分函数：定义了一个数学化的目标函数。
- 设 $P$ 为路径集合，$c_i$ 为路径中的概念。
- $Score(P) = (1 + |P|) \times \text{Diversity}(P) \times \text{Specificity}(P)$
- 这种设计鼓励模型生成尽可能多（$|P|$）且不重复的高质量路径。

4. 实验与结果

实验设计

模型：测试了从开源模型（LLaMA, Mistral）到闭源模型（GPT-3.5, GPT-4, Claude）的一系列LLM。
对比方法：
- 标准提示。
- 思维链：要求模型在生成前先思考。
- 创意提示：如“假装你是一个富有创造力的人”。
- 自我一致性：多次采样取最优。

主要发现

模型规模与创造力正相关：更大的模型（如GPT-4）在特异性和多样性上均显著优于小模型，表明参数规模有助于捕捉更微妙的语义联系。
思维链（CoT）的双刃剑效应：
- 令人惊讶的是，CoT并不总是能提升表现。在某些情况下，CoT会导致模型陷入“过度分析”或产生幻觉，生成看似合理但实际断裂的路径。
- 这表明联想推理可能更依赖于直觉性的语义接近度，而非显性的逻辑推导。
提示工程的边际效应递减：专门设计的“创意提示”对提升分数的作用有限，说明联想创造力更多是模型隐含能力的体现，而非简单的指令遵循问题。

局限性

评估指标的偏差：使用嵌入模型（如Conceptionary）计算特异性可能存在偏差，因为它无法捕捉某些极其生僻但人类能理解的特殊联系（如双关语或文化隐喻）。
语言限制：目前主要针对英语，跨语言的联想能力尚未测试。

5. 应用前景

实际应用场景

科学假设生成：在药物研发或材料科学中，CREATE可用于寻找看似无关物质之间的潜在联系，辅助科学家发现新的反应路径。
内容创作辅助：帮助编剧或作家寻找剧情转折点，通过连接不相关的元素产生创意冲突。
推荐系统：超越传统的协同过滤，利用联想推理进行跨域推荐（例如：从“科幻电影”联想到“古典音乐”）。

产业化可能性

该基准本身可作为模型训练的奖励信号。通过强化学习（RL）优化CREATE得分，可以训练出更具“洞察力”的AI助手，而非仅仅是复读机。

6. 研究启示

对领域的启示

重新定义“推理”：论文表明，除了数学和逻辑推理，联想推理是衡量AI智能水平的另一重要维度。
评估方法的革新：证明了在开放式生成任务中，可以通过巧妙的任务设计和自动化指标，实现既客观又难以作弊的评估。

未来方向

多模态联想：将CREATE扩展到图像-文本或文本-音频的跨模态联想测试。
过程挖掘：不仅要看生成的路径，还要研究模型在生成过程中的注意力机制，理解它是如何“跳跃”的。

7. 学习建议

适合读者

从事NLP评估、计算创造力研究的研究员。
关注LLM推理能力边界的工程师。
认知科学交叉学科背景的学生。

前置知识

基础：Transformer架构，大语言模型的基本原理。
进阶：向量空间模型，语义相似度计算，Prompt Engineering基础。

阅读顺序

先阅读摘要和引言，理解“联想创造力”的定义。
仔细阅读第2、3节，理解CREATE的数据构建方法和评分公式（这是核心）。
浏览实验结果部分，重点关注CoT失效的分析。
最后阅读附录中的案例，直观感受模型的输出。

8. 相关工作对比

维度	CREATE (本论文)	传统RAT (Remote Associates Test)	开放式创意写作
任务形式	生成多条连接路径	填空（一个标准答案）	生成段落/故事
评估方式	自动化指标（特异性+多样性）	准确率	人工评估 / LLM-as-a-Judge
抗饱和性	高（搜索空间大）	低（容易过拟合）	中（难以量化）
测试能力	发散性思维 + 知识图谱导航	收敛性思维 + 词汇记忆	流畅度 + 风格模仿

创新性评估：CREATE在“发散性思维的量化评估”上迈出了重要一步。它比RAT更难，因为它不限制唯一的中间词；它比创意写作更可控，因为评估指标是确定的。

9. 研究哲学：可证伪性与边界

关键假设

假设1：语义空间中的向量接近度可以有效地代理人类的概念关联度。
- 挑战：人类的联想包含隐喻和反讽，向量空间可能无法完全覆盖。
假设2：创造力可以通过“特异性”（紧密度）和“多样性”（广度）的乘积来公理化。
- 挑战：这种公式可能忽略了“惊喜感”或“情感共鸣”。

失败条件

数据分布偏移：如果源概念和目标概念属于极度垂直的领域（如量子物理和古代文学），且预训练数据中缺乏共现，模型可能会完全失败或产生幻觉。
长路径断裂：当路径长度超过3-4跳时，误差累积会导致语义漂移，模型容易“跑题”。

经验事实 vs 理论推断

经验事实：大模型在联想任务上确实比小模型好，且CoT有时无效。这是基于实验数据的客观事实。
理论推断：作者推断CoT无效是因为联想是“直觉性”的。这属于解释性假设，需要通过探针分析来进一步验证模型内部的激活模式。

长期影响

这篇论文推进的是对**“理解”**的界定。它不仅仅提供了一个新的测试集，而是提出了一种观点：真正的智能不仅在于解决定义明确的问题，更在于在混乱的知识空间中建立秩序。代价是我们可能需要接受一种新的评估范式，即不再追求唯一的标准答案，而是评估解空间的覆盖质量。

研究最佳实践

最佳实践指南

实践 1：构建多维度的概念联想数据集

说明: 联想创造力的核心在于模型能够跨越语义距离将不相关的概念联系起来。为了准确测试这一能力，不能仅依赖单一领域的词汇，而需要建立一个包含不同抽象层级、不同领域（如艺术、科学、日常生活）以及不同语义距离的配对数据集。

实施步骤:

收集高频词与低频词，确保涵盖具体名词和抽象名词。
人工标注词汇对之间的语义距离（如：直接相关、间接相关、无关）。
准备“远距离联想测试”（RAT）风格的问题，即提供三个看似无关的刺激词，要求模型找出一个能将它们联系起来的共同词。

注意事项: 避免数据集中包含过多的成语或固定搭配，因为这会测试模型的记忆能力而非联想能力。

实践 2：实施受控的变量干扰测试

说明: 真正的创造力往往出现在受限环境中。通过在提示词中引入特定的约束条件（如字数限制、禁止使用某些词汇、特定的风格要求），可以测试模型在有限制条件下的灵活变通能力。

实施步骤:

设计基准测试任务（如写一个短故事或解释一个概念）。
逐步增加约束条件（例如：“不使用字母’e’”、“用莎士比亚的风格”、“包含两个矛盾的形容词”）。
对比模型在无约束和有约束条件下的输出质量与连贯性。

注意事项: 约束条件必须清晰明确，避免模型误解指令导致输出失败，这不应被误判为创造力不足。

实践 3：采用自动化指标与人工评估相结合

说明: 单纯依赖困惑度等传统指标无法有效衡量创造力。必须结合基于语义相似度的自动化指标（如BERTScore计算新颖性）和人类专家的主观评分（如惊喜感、实用性、流畅性）。

实施步骤:

使用嵌入模型计算生成内容与训练数据或常见回答的余弦相似度，量化“新颖性”。
建立人工评估流程，让评估者对输出的“原创性”和“适切性”进行1-5分打分。
计算新颖性与适切性之间的平衡点，避免模型为了追求新颖而生成荒谬的内容。

注意事项: 人工评估者需要经过培训，统一对“创造力”定义的理解，减少主观偏差。

实践 4：测试发散性思维与聚合性思维的平衡

说明: 创造力不仅包括产生大量不同想法的发散性思维，还包括将现有信息整合的聚合性思维。测试应覆盖这两个方面，以全面评估模型的联想能力。

实施步骤:

发散性测试：要求模型针对一个抽象概念（如“时间”）生成尽可能多的隐喻或用途。
聚合性测试：要求模型解决一个需要结合多领域知识的复杂问题（如“如何利用生物学原理改进城市交通”）。
统计发散性测试中的独特词汇数量，并评估聚合性测试中逻辑链条的严密性。

注意事项: 在发散性测试中，需设置去重机制，防止模型通过简单的同义词替换来滥竽充数。

实践 5：迭代式提示以探索联想边界

说明: 一次性生成往往无法触及模型联想能力的极限。通过多轮对话和迭代式提示，引导模型逐步深化联想，观察其能否在初始想法的基础上进行二次创作和跳跃。

实施步骤:

进行第一轮生成，获取模型的初步联想结果。
基于第一轮结果，提出“为什么是这样？”或“能否换一个更意想不到的角度？”等追问。
分析模型在后续轮次中是否能够打破常规思维定势，产生更高阶的联想。

注意事项: 追问的技巧至关重要，避免诱导性过强的问题限制了模型的发散空间。

实践 6：评估跨域隐喻映射能力

说明: 高级的联想创造力通常体现为将源域的结构映射到目标域。测试模型理解并生成复杂隐喻的能力，是检验其是否真正“理解”概念间深层联系的关键。

实施步骤:

构建跨域隐喻生成任务，例如“请用计算机网络的术语来描述社会关系”。
构建隐喻解释任务，给模型一个复杂的隐喻，要求其解释背后的逻辑联系。
评估映射的一致性，即模型是否在整个生成过程中保持了源域和目标域的逻辑对应。

注意事项: 区分“表面特征相似”和“深层结构相似”，优秀的联想应基于深层结构关系。

实践 7：建立对抗性样本以检测幻觉与创造力的界限

说明: 联想创造力不同于胡编乱造。需要设计能够诱导模型产生幻觉的测试用例，以此界定模型是在进行合理的联想还是在捏造事实。

实施步骤:

提供不存在或逻辑上不可能的前提条件（例如“请描述一下月球上著名的长城”）。

学习要点

CREATE基准测试首次通过量化评估揭示了LLMs在联想创造力上的显著局限，即模型难以通过概念组合产生人类预期的创新性结果。
现有LLMs在涉及远距离联想和创造性隐喻生成的任务中表现不佳，暴露了其缺乏类似人类的灵活概念映射能力。
研究表明模型规模扩大并不一定能有效提升联想创造力，这意味着单纯增加参数量无法解决创造性推理的核心瓶颈。
该基准测试通过构建细粒度的评估指标，为未来衡量和改进AI系统的非确定性认知能力提供了标准化的方法论框架。
实验结果强调了联想创造力作为AI高级认知能力的重要性，指出了当前模型在模拟人类发散性思维方面与人类存在的本质差距。

学习路径

阶段 1：基础理论与认知科学背景

学习内容:

联想创造力的定义及其在认知心理学中的地位（如 Mednick 的联想理论）
大语言模型（LLM）的基本原理（Transformer 架构、注意力机制）
创造力评估的传统指标（如发散性思维测试、远距离联想测试 RAT）

学习时间: 2-3周

学习资源:

论文：The Remote Associates Test as a measure of creativity (Mednick, 1962)
课程：吴恩达《Deep Learning Specialization》中的序列模型部分
文章：OpenAI 或 Anthropic 关于 LLM 基础能力的技术博客

学习建议: 在深入 LLM 之前，先理解人类创造力的心理学框架。重点理解“联想”是如何通过语义距离来定义的，这对后续理解机器的联想测试至关重要。

阶段 2：LLM 评估方法论

学习内容:

如何将传统的心理学测试转化为 LLM 的提示工程
常见的 NLP 评估指标（BLEU, ROUGE）及其在创造力测试中的局限性
自动化评估与人工评估的权衡
数据集构建与清洗（如构建联想词对数据集）

学习时间: 3-4周

学习资源:

论文：Language Models are Few-Shot Learners (GPT-3 Paper)
论文：Evaluating the Creativity of LLMs (相关综述)
工具：Hugging Face Transformers 库基础使用

学习建议: 尝试手动设计几个简单的联想测试 Prompt，并使用现有的开源模型（如 Llama 或 GPT-2）进行初步测试，观察模型在不同温度下的表现差异。

阶段 3：深入理解论文《Testing LLMs for Associative Creativity》

学习内容:

该论文提出的具体测试框架和实验设计
论文中使用的特定数据集（如基于概念网络的联想数据）
实验结果分析：模型规模与联想能力的关系
论文中讨论的“语义距离”计算方法

学习时间: 2-3周

学习资源:

核心论文：CREATE: Testing LLMs for Associative Creativity (arXiv)
代码库：论文作者提供的官方代码仓库（如有）
补充阅读：ConceptNet 项目官网及 API 文档

学习建议: 仔细阅读论文的“Methodology”部分，复现其 Prompt 设计。如果代码可用，尝试运行其基准测试；如果不可用，尝试使用 ConceptNet 工具复现其计算语义距离的逻辑。

阶段 4：实验复现与高级分析

学习内容:

搭建自动化测试流水线
控制变量实验（如改变 Context 长度、Prompt 格式对联想结果的影响）
分析模型的“失败案例”：为什么模型无法建立远距离联想？
引入新的评估维度（如新颖性、有用性）

学习时间: 4-6周

学习资源:

平台：Kaggle 或 Colab（用于运行大规模模型推理）
库：LangChain (用于复杂的 Prompt 管理)
论文：Measuring and Progressing in Creative Agency with LLMs

学习建议: 不要只看准确率。深入分析模型生成的错误答案，往往能发现模型在语义理解上的盲点。尝试可视化不同层级的 Transformer 输出，观察联想是如何在模型内部形成的。

阶段 5：专家级优化与前沿探索

学习内容:

针对联想创造力的微调策略
多模态联想测试（结合图像与文本的创造力）
开发新的测试基准（Beyond CREATE）
探索“涌现能力”在创造性任务中的表现

学习时间: 持续学习

学习资源:

论文：关于模型微调（PEFT/LoRA）的最新研究
会议：NeurIPS, ICLR, ACL 中关于 Creativity and NLP 的最新章节
社区：LessWrong, r/MachineLearning 等关于 AI 意识与创造力的讨论

学习建议: 尝试设计一个全新的测试任务，该任务要求模型结合两个完全不相关的领域（例如生物学与建筑学）生成创新概念，并定义一套评估标准来衡量其成功与否。

常见问题

1: 什么是“联想创造力”，为什么它对测试大型语言模型（LLM）很重要？

A: 联想创造力是指一种认知能力，它允许个体将原本不相关的概念或想法联系起来，以产生新颖且有意义的见解。在心理学中，这通常通过“远程联想测试”来衡量，即给出一个刺激词，要求受试者找出与其在语义上距离较远但存在潜在关联的词。

对于 LLM 而言，测试这种能力至关重要，因为目前的模型主要基于概率预测下一个 token（词元），这种机制倾向于产生高频、陈词滥调的搭配。测试联想创造力可以评估模型是否真正“理解”概念之间的深层语义关系，以及它是否具备超越简单统计模式匹配的创新能力。这是衡量 LLM 是否具备人类水平智能和潜在生成能力的关键指标。

2: 该研究提出了什么具体的测试方法或数据集？

A: 该研究介绍了一个名为“CREATE”（Creative REtrieval-based Association Task for Engines）的基准测试。这是一个基于检索的联想任务，旨在评估 LLM 生成创意联想的能力。

具体来说，CREATE 包含了一系列的提示词，每个提示词要求模型根据给定的输入（通常是三个不相关的词语）生成一个能够将它们联系起来的“桥梁词”或“联想词”。与传统的仅评估生成文本是否通顺不同，该研究构建了一个包含人类联想数据的评估集，并使用嵌入模型来计算模型生成的联想词与人类生成的联想词之间的语义相似度，从而量化地评估模型的创意水平。

3: 研究的主要发现是什么？现有的顶尖模型（如 GPT-4 等）表现如何？

A: 研究的主要发现是，虽然现有的顶尖 LLM 在许多标准基准测试中表现优异，但在联想创造力方面仍与人类表现存在显著差距。

具体表现如下：

人类优势：人类在生成远程联想（即语义距离较远但合理的联想）方面仍然远胜于 AI。
模型表现：尽管像 GPT-4 这样的大型模型在流畅性和语法正确性上表现出色，但它们往往倾向于产生“更安全”、语义距离更近的联想（即更常见的搭配）。
相关性：研究发现，模型的参数规模与其在 CREATE 基准上的表现呈正相关，但这种提升并未达到人类水平，表明单纯扩大模型规模并不能直接解决创意联想的缺失问题。

4: 该研究如何解决评估“创造力”这一主观概念的问题？

A: 创造力通常被认为是主观的，难以通过自动化指标衡量。该研究通过以下方法解决了这一难题：

基于人类数据的基准：研究者收集了大量人类受试者对同一组刺激词的联想回答，建立了一个“人类创意分布”作为参考标准。
语义相似度量化：利用先进的文本嵌入模型（如 BERT 或 OpenAI 的 Embeddings），将模型生成的答案与人类生成的答案映射到高维向量空间。
距离计算：通过计算生成答案与人类答案在向量空间中的距离，可以客观地量化模型的答案是否接近人类的直觉。如果模型生成的词与人类高频生成的词在语义上非常接近，则被认为具有较高的联想创造力；反之，如果模型生成的词过于生僻或过于普通，则得分较低。

5: 这项研究对于 AI 的未来发展和应用有什么意义？

A: 这项研究具有多重意义：

揭示局限性：它揭示了当前 LLM 在需要深度语义整合和发散性思维的任务上的局限性，提醒研究界不要仅凭模型在标准考试中的高分就误以为其具备了完整的认知能力。
指导改进：通过 CREATE 这样的基准，开发者可以更有针对性地优化模型，例如通过调整训练数据或微调策略来鼓励模型进行更广泛的语义搜索，而不仅仅是概率上的局部最优。
应用场景筛选：了解模型在联想创造力上的短板，有助于企业在部署 AI 时做出更明智的决策。例如，在需要高度创意的广告文案、艺术构思或科学假设生成等场景中，目前仍需要人类的深度介入，而不能完全依赖自动化生成。

6: CREATE 测试与传统的图灵测试或 Winograd Schema 挑战有何不同？

A: CREATE 测试专注于发散性思维和语义距离，而传统的测试往往侧重于逻辑推理或常识判断。

图灵测试：侧重于判断机器是否能欺骗人类使其相信它是人，通常涉及对话的欺骗性和上下文理解。
Winograd Schema：侧重于常识推理和代词消解，通常是一个二选一的问题，有明确的正确答案。
CREATE：侧重于创造性。它不是问“哪个答案是对的”，而是问“哪个答案更有创意且与人类直觉相符”。它测试的是模型在广阔的语义空间中进行跳跃和连接的能力，这更接近于人类灵感的闪现过程，而非逻辑推演过程。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

在评估联想创造力时，为什么不能仅依赖模型输出的“流畅性”指标，即生成内容的数量？请结合 LLM 的概率生成机制，解释单纯依赖高概率词汇会如何限制“新颖性”的表现。

提示**:

引用

ArXiv: http://arxiv.org/abs/2603.09970v1
PDF: https://arxiv.org/pdf/2603.09970v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： LLM / 创造力评估 / 联想推理 / CREATE基准 / 思维链 / 提示工程 / 假设生成 / 模型评估
场景：大语言模型

LLM盲区偏差检测：识别模型未提及内容
CHIMERA：用于提升大模型推理泛化能力的紧凑合成数据
LLM 中的 L 代表撒谎：大语言模型的幻觉问题
SokoBench：评估大模型长程规划与推理能力
Alyah：评估阿拉伯语大模型阿联酋方言能力 本文由 AI Stack 自动生成，深度解读学术研究。

CREATE：评估大语言模型的联想创造力