CREATE基准：测试大语言模型的联想创造力

基本信息

ArXiv ID: 2603.09970v1
分类: cs.CL
作者: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
PDF: https://arxiv.org/pdf/2603.09970v1.pdf
链接: http://arxiv.org/abs/2603.09970v1

导语

本文提出了 CREATE 基准测试，旨在评估大语言模型基于内部知识建立概念间新颖联系的联想创造力。该方法通过量化生成路径的特异性和多样性，在模拟高搜索空间创造性任务的同时实现了客观评分。实验表明顶尖模型表现更优，但受限于摘要信息，无法从摘要确认其具体的失败模式或与人类表现的差距。该研究为客观衡量机器创造力提供了新视角，或有助于推动假设生成等下游应用的发展。

摘要

本文介绍了 CREATE，一个旨在评估大语言模型（LLM）联想创造力的新基准测试。

创造力核心在于“联想推理”，即在不同概念间建立新颖且有意义的联系的能力。CREATE 要求模型基于其内部知识，生成连接两个概念的路径。评分标准侧重于路径的特异性（连接的独特性和紧密性）以及多样性（路径间的差异性）。模型生成的路径越多、质量越高、差异越大，得分越高。

该任务模拟了假设生成等真实创造性任务的特点（如巨大的搜索空间），同时具备客观评分机制。测试结果显示：

顶尖模型表现更优，但由于答案的高多样性和搜索的复杂性，目前很难达到基准饱和。
“思维”模型并不总是更有效，即使给予较高的 token 预算。
现有的创意提示技术仅能带来有限的提升。

CREATE 为开发提升模型联想创造力的新方法提供了一个重要的测试平台。

论文评价：CREATE——大语言模型联想创造力的基准测试

概述该论文提出了CREATE基准，旨在通过量化模型连接两个不相关概念的能力来评估大语言模型（LLMs）的“联想创造力”。这一研究尝试将发散性思维转化为具体的序列生成任务，并提供了自动化的评估指标。

以下是基于学术与应用视角的深入评价：

1. 研究创新性

论文观点：创造力可以被视为一种联想推理，并通过生成连接概念的路径质量（特异性）和数量（多样性）来衡量。
方法验证：研究设计了一个开放式生成任务，要求模型构建从源概念到目标概念的路径，并引入了基于N-gram重叠度的特异性指标和基于语义距离的多样性指标。
评价与分析：
- 方法论进展：该研究将发散性思维测试的要素转化为路径寻找问题。这种方法在保留创造性任务搜索空间特性的同时，引入了自动化的评分机制，有助于降低对人工评估的依赖。
- 技术细节：利用N-gram统计来衡量“特异性”是一种基于统计规律的代理指标。它假设低频词汇组合代表更高的新颖性，虽然在一定程度上捕捉到了“新颖性”，但可能无法完全反映“语义惊奇性”。

2. 理论贡献

论文观点：联想推理是创造力的核心组成部分，LLM在这方面的表现反映了其潜在的推理能力。
方法验证：引用认知科学文献，将创造定义为远程联想。
评价与分析：
- 理论定位：该研究将AI创造力的评估从单纯的生成能力推进到了结构化联想能力。它提出在语义空间中，创造力可以被建模为寻找路径的计算过程。
- 潜在假设：该理论隐含假设**“路径越短、越独特，创造力越强”**。
- 边界条件：这一假设可能在某些类型的创新场景下存在局限。某些复杂的连接往往包含较长的推理链或非直观的“弱连接”。
- 改进建议：引入人类专家评估，对比“高分短路径”与“低分长路径”在实际应用场景中的价值，以验证特异性指标与人类感知的契合度。

3. 实验验证

论文观点：顶尖模型（如GPT-4）表现优于小模型，基准尚未饱和，且思维链能提升表现。
方法验证：展示了不同模型在特异性和多样性上的得分分布，并进行了CoT的消融实验。
评价与分析：
- 实验设计：实验覆盖了从基础模型到指令微调模型的广泛谱系。关于“思维链”能提升联想创造力表现的发现，表明序列推理步骤对完成此类任务具有积极作用。
- 数据质量：论文未充分讨论“幻觉”问题。在构建联想路径时，模型可能生成虚构的事实联系来强行连接两个概念。
- 改进建议：引入事实一致性检验。不仅评估路径的特异性，还需核查路径中每一步的合理性，以区分“创造性连接”与“错误连接”。

4. 应用前景

论文观点：该基准模拟了假设生成、科学发现等真实任务。
评价与分析：
- 科研辅助：CREATE适用于评估AI在科学假设生成中的潜力，例如连接“药物A”和“疾病B”的潜在机制，这与知识发现领域的需求相符。
- 工具优化：该评估方法可用于辅助提示词工程，帮助模型生成更多样化的输出。
- 适用范围：目前的评分标准侧重于“新颖性”，在具体工业应用中，可能还需要结合“实用性”或“可行性”指标，以评估创意的实际落地价值。

5. 可复现性

论文观点：提供了基准数据和评估代码。
评价与分析：
- 从技术角度看，只要评分指标（N-gram, Embedding Distance）定义明确，该基准具备可复现性。
- 潜在变量：概念对的选取具有主观性。如果测试集存在偏差（例如包含文化特定性过强的词汇），跨模型或跨文化的复现结果可能会受到影响。
- 改进建议：发布概念对选取的标准化流程，并考虑不同文化背景下的概念对齐。

6. 相关工作对比

对比维度：与传统的发散性思维数据集（如CommonGen）和图推理基准（如BigBench Hard）对比。
评价与分析：
- 与CommonGen相比，CREATE侧重于概念间的远程连接，而非基于常见概念的组合生成，这使得任务难度更高，更侧重于考察模型的跳跃性思维能力。
- 与图推理基准相比，CREATE不依赖于显式的图结构输入，而是利用模型内部的潜在知识空间，更接近于人类的直觉联想过程。

技术分析

以下是对论文 CREATE: Testing LLMs for Associative Creativity 的深入分析。

CREATE: 测试大语言模型的联想创造力——深度分析报告

1. 研究背景与问题

核心问题

该论文致力于解决大语言模型（LLM）在联想创造力评估上的缺失与量化难题。具体而言，作者试图回答：LLM 是否具备在不同概念间建立新颖且有意义的联系的能力？这种能力是否可以通过客观的指标进行衡量？

研究背景与意义

创造力通常被视为人类智能的巅峰，是艺术、科学发现和问题解决的核心。在 AI 领域，随着 LLM 参数量的指数级增长，模型表现出了涌现能力。然而，目前的评估主要集中在逻辑推理、编程或事实性问答上。对于“创造力”的评估，主流方法多依赖图灵测试式的盲测或受限于特定领域的生成任务（如写诗、作画），缺乏一种通用的、基于认知心理学定义的评估标准。CREATE 的意义在于它试图将认知心理学中的“联想语义网络”理论引入 NLP 评估，填补了模型通用认知能力评估的一块拼图。

现有方法的局限性

主观性强：许多创意写作基准（如 Storywriting）依赖人类 annotator 打分，成本高且难以复现，容易受主观偏见影响。
评估僵化：基于 n-gram 重叠（如 BLEU/ROUGE）的指标与创造性背道而驰，因为创造力意味着偏离统计规律。
缺乏结构：简单的“生成一个创意故事”无法探测模型是如何连接概念的。CREATE 通过要求生成“路径”，显式地测试了模型的推理链。

为什么重要

如果 LLM 真正具备通用人工智能（AGI）的雏形，它们必须具备组合性知识的能力。联想创造力是类比推理、假设生成和科学发现的基础。CREATE 提供了一个探针，帮助我们理解模型是在“死记硬背”还是在“真正思考”。

2. 核心方法与创新

核心方法：CREATE 基准

CREATE 定义了一个任务：给定两个不相关的概念（例如，“狗”和“香蕉”），要求模型生成一条连接这两个概念的中间概念路径（例如，“狗 -> 狗粮 -> 猴子 -> 香蕉”）。

技术创新点

基于路径的生成范式：不同于单步生成，CREATE 强制模型展示推理的中间步骤。这不仅测试了知识储备，还测试了知识图谱中的路径搜索能力。
多维度的自动化评分：
- 特异性：衡量连接的独特性和紧密性。如果模型生成的连接词过于通用（如“东西”），则特异性低。
- 多样性：衡量模型多次生成的路径之间的差异。创造力意味着产生多种不同的解决方案，而非重复同一种逻辑。
客观且可扩展的评估机制：利用现有的 NLP 工具（如词向量相似度、N-gram 罕见度）构建复合评分，实现了无需人工介入的大规模评估。

方法的优势

搜索空间巨大：两个概念之间的潜在路径是指数级的，这意味着模型无法通过简单的记忆训练集来作弊。
可解释性：生成的路径本身就是模型推理过程的可视化，便于研究人员分析模型失败的原因（是知识缺失，还是逻辑断裂）。

3. 理论基础

理论依据：联想语义理论

该方法根植于认知心理学中的扩散激活理论。该理论认为，人类记忆中的概念是以网络形式存储的，当一个概念被激活时，这种激活会沿着连接线扩散到相关概念。

CREATE 的假设：LLM 的内部权重隐式地编码了这种语义网络。通过生成路径，模型实际上是在其高维隐空间中进行了一次“随机游走”或启发式搜索。

算法设计与评分逻辑

虽然论文未提出复杂的全新数学模型，但其评分函数设计具有理论考量：

特异性：通常通过计算生成词与上下文的逆文档频率（IDF）或点互信息（PMI）来量化。数学上，这鼓励模型最大化 $P(\text{intermediate} | \text{context})$ 的条件熵，即寻找令人惊讶但又合理的词。
多样性：通过计算生成集合 $S$ 中不同路径之间的语义距离（如余弦距离）来量化。这要求模型具备多模态搜索能力，而非陷入局部最优解。

4. 实验与结果

实验设计

数据集：作者构建了一个包含成对概念的数据集，这些概念在语义上具有一定的距离，既不是毫无关系，也不是直接同义词。
测试模型：涵盖了不同规模的模型（包括 GPT-4, Claude, LLaMA 等）以及不同推理机制的模型（如 Chain-of-Thought vs. Standard）。
评估指标：主要使用 CREATE Score（特异性与多样性的加权组合）。

主要结果

规模效应：模型规模越大，创造力得分越高。GPT-4 等顶尖模型显著优于小型模型，表明联想创造力是一种涌现能力。
思维链的边际效应递减：令人惊讶的是，显式的“思维链”提示并没有显著提升创造力表现。这表明联想跳跃可能是一种直觉性的、潜意识的模式匹配过程，而非慢速的逻辑推理过程。
提示工程的局限：即使使用“请更有创意一点”这样的系统提示，带来的提升也微乎其微。

结果分析

这验证了一个假设：创造力更多依赖于模型内部知识的组织方式（权重结构），而非外部的推理策略。现有的 CoT 可能更擅长逻辑演绎，而非发散性的思维跳跃。

局限性

评分偏差：自动化评分可能无法完美捕捉“意义”。例如，一个非常抽象但富有哲理的连接可能会被词向量模型误判为低相关性。
路径长度限制：实验可能固定了路径长度，而人类的联想有时是跳跃式的。

5. 应用前景

实际应用场景

科学发现辅助：在药物研发或材料科学中，CREATE 可用于寻找看似无关物质之间的潜在联系（类比于“香蕉与狗”的连接，但在化学分子层面）。
创意内容生成：为广告、小说创作提供意想不到的情节转折或隐喻组合。
教育工具：作为训练学生发散性思维的辅助工具，展示如何连接不同领域的知识。

产业化可能性

目前作为基准测试的产业化价值在于模型筛选。企业可以用 CREATE 快速评估新模型的开阔思维能力，而无需昂贵的人工评估。

未来方向

结合检索增强生成（RAG）。目前的 CREATE 仅依赖模型内部参数。如果引入外部知识库，模型是否能通过连接完全陌生的领域而产生“顿悟”？

6. 研究启示

对领域的启示

重新定义“推理”：CoT 并不是万能的。该研究提示社区，需要针对不同类型的认知任务（逻辑推理 vs. 联想推理）设计不同的架构。
评估基准的转移：从单一的正确答案转向开放式、多维度的评估指标。

需进一步探索的问题

模型的“幻觉”是否是创造力的副作用？高创造力的模型是否更容易产生看似合理但错误的连接？
如何在保持特异性的同时，确保路径的“真实性”？

7. 学习建议

适合人群

NLP 研究员：关注模型评估和生成质量的研究者。
认知科学爱好者：对人类思维计算建模感兴趣的人。
AI 产品经理：需要评估模型在非标准化任务上表现的人。

前置知识

基础 NLP 概念：Embedding, Cosine Similarity, Language Modeling。
认知心理学基础：了解 Semantic Networks, Creativity definitions（如 Mednick 的远程联想理论）。
Prompt Engineering：了解 Zero-shot, Few-shot, CoT 等基本概念。

阅读顺序

先阅读摘要和引言，理解“联想创造力”的定义。
跳转到 Method 部分，查看具体的评分公式。
查看 Results 中的 Case Study（定性分析），这比数字更直观地展示了什么是“好”的路径。
最后阅读讨论部分，思考 CoT 失败的原因。

8. 相关工作对比

与同类研究的对比

vs. Conie (ConceptNet)：ConceptNet 是一个静态的知识图谱，而 CREATE 测试的是 LLM 动态生成路径的能力。LLM 不受图结构限制，能产生更灵活的连接。
vs. TTC (Turing Test for Creativity)：TTC 依赖人类判断，虽然准确但不可扩展。CREATE 实现了自动化，虽然可能不如人类判断细腻，但效率极高。
vs. Divergent Association Task (DAT)：DAT 是人类心理学测试，要求给出两个词之间的相似度。CREATE 将其逆向工程，要求生成路径，更适合 AI 的生成特性。

创新性评估

CREATE 的主要贡献在于将心理学的定性概念转化为可计算的定量任务。它没有提出新的模型架构，但提出了一个极其重要的“标尺”。

9. 研究哲学：可证伪性与边界

关键假设与归纳偏置

假设：语言模型的高维向量空间几何结构能够有效模拟人类的概念联想网络。
归纳偏置：论文假设“特异性”和“多样性”是创造力的充分必要条件。这可能存在偏差，例如，“简洁性”或“情感共鸣”也是创造力的重要组成部分，但被忽略了。

失败条件

数据分布偏移：如果测试概念对来自模型训练数据分布极少的领域（如某种冷门部落的历史与量子物理），模型可能因为缺乏知识节点而无法建立路径，表现为“伪缺乏创造力”。
文化偏见：联想往往具有文化特异性。CREATE 的评分标准可能基于英语/西方文化常识，对于非英语模型的评估可能存在文化壁垒。

经验事实 vs. 理论推断

经验事实：大模型在 CREATE 上的得分高于小模型；CoT 对提升 CREATE 分数帮助不大。
理论推断：作者推断 CoT 无效是因为联想是“直觉性”的。这是一个需要进一步验证的理论假设，也有可能是 CoT 的提示词设计不够好，或者评分函数未能捕捉到 CoT 带来的深层逻辑优势。

长期视角：方法 vs. 理解

这篇论文主要推进的是**“理解”**（Understanding）。它没有提出新的训练算法来让模型更有创意，而是提供了一面镜子，让我们看清当前模型在发散性思维上的真实水平。代价是可能引发关于“AI 创造力本质”的哲学争论——如果 AI 只是计算概率分布的最优路径，这算不算真正的创造？CREATE 将这一争论推向了量化讨论的层面。

研究最佳实践

最佳实践指南

实践 1：建立多维度的联想评估体系

说明: 联想创造力不仅仅是指词汇的邻近性，还包括远距离联想、概念融合以及跨域映射的能力。单一的测试指标（如语义相似度）无法全面捕捉LLM的创造性潜力。因此，必须建立一个包含语义距离、新颖性、实用性以及抽象程度的综合评估体系。

实施步骤:

定义评估维度：包括语义距离（概念间的差异程度）、灵活性（跨越不同领域的能力）和流畅性（产生联想的数量）。
为每个维度设计具体的量化指标，例如使用BERTScore计算语义距离，或人工评估新颖性。
构建标准化数据集，涵盖从具体到抽象的多种提示词。

注意事项: 避免仅依赖人工评估，因为其主观性强且成本高；应结合自动化指标与人工评估进行加权。

实践 2：采用远距离联想任务（RAT）变体作为核心测试

说明: 远距离联想任务是测试联想创造力的黄金标准。传统的RAT要求找出三个看似无关的词语的共同联系词。为了更深入地测试LLM，应采用RAT的变体，例如增加词语数量、使用抽象概念或要求生成而非选择答案。

实施步骤:

准备标准RAT数据集作为基准线。
构建困难级RAT数据集：选择语义距离更远的刺激词。
设计生成式RAT测试：不给模型提供选项，要求模型直接生成联想词及解释其逻辑路径。

注意事项: 确保测试集未包含在模型的训练数据中，以防止记忆效应干扰对创造力的真实测量。

实践 3：实施“概念融合”与“组合性创造”测试

说明: 创造力往往源于将两个不相关的概念结合成新的统一体。测试模型强制结合无关概念的能力，是评估其联想创造力的重要手段。

实施步骤:

随机抽取成对的名词，这些名词在语义空间中距离较远（如“咖啡”和“宇宙”）。
提示模型生成一个结合这两个概念的新物体或想法，并描述其功能。
评估生成结果的“融合度”：即新概念是否保留了源概念的特征并产生了新的意义。

注意事项: 评估标准应侧重于生成的概念是否具有逻辑连贯性，而不仅仅是随机的词语拼接。

实践 4：引入“发散性思维”的提示工程策略

说明: LLM倾向于收敛于高概率的答案（即最平庸的答案）。为了激发联想创造力，必须通过特定的提示工程策略，强制模型进行发散性思考。

实施步骤:

使用“链式思维”提示，要求模型解释从刺激词到答案的联想路径。
在Prompt中明确要求“列出10个可能的解决方案”或“忽略最显而易见的答案”。
使用“角色扮演”策略，赋予模型特定的创造性身份（如“你是一位富有想象力的科幻作家”）。

注意事项: 提示词需要经过仔细调试，避免过度引导导致模型产生幻觉或逻辑崩坏。

实践 5：构建控制变量的对比实验环境

说明: 要准确评估模型的联想能力，必须区分“知识检索”和“创造性联想”。最佳实践需要建立严格的控制变量实验。

实施步骤:

设计“高概率联想”测试组（测试常识性联想，如“天空-蓝色”）。
设计“低概率联想”测试组（测试创造性联想，如“天空-沉思”）。
对比模型在不同温度参数下的表现，分析温度（随机性）对联想创造力的影响。

注意事项: 确保测试样本在难度和词频上保持平衡，避免因词频偏差导致的误判。

实践 6：评估联想结果的“意外性”与“合理性”平衡

说明: 最佳的创造性联想是“意料之外，情理之中”。仅仅生成奇怪的句子不是创造力。评估体系必须同时衡量意外性和合理性。

实施步骤:

利用语义嵌入模型计算生成答案与提示词的余弦距离作为“意外性”指标。
利用自然语言推理（NLI）模型检测生成结果在逻辑上是否通顺，作为“合理性”指标。
绘制“意外性-合理性”曲线，寻找最佳平衡点。

注意事项: 防止模型通过生成无意义的乱语来提高“意外性”得分，必须严格过滤逻辑不通的输出。

学习要点

现有的LLM评估基准（如MMLU）主要侧重于事实回忆，缺乏对联想创造力这一核心认知能力的有效测试，而联想创造力是衡量模型能否在看似无关的概念间建立新颖联系的关键指标。
研究团队构建了一个名为CREATE（Creative REtrieval Associative Task for Engines）的新基准，通过要求模型结合两个随机选取的概念来生成创意标题，从而量化评估模型的发散性思维和联想能力。
评估采用了客观且可扩展的“语义距离”指标，通过计算生成标题与两个输入概念在语义空间中的距离，来衡量模型在保持关联性的同时进行远距离联想的能力。
实验结果显示，尽管LLM在传统基准上表现优异，但在联想创造力任务中仍面临显著挑战，且模型规模与创造力表现之间并非总是呈线性正相关关系。
人类评估者倾向于认为LLM生成的创意标题比人类撰写的标题更具“创造力”，这表明模型可能更擅长打破常规思维模式，但也暴露了当前评估指标与人类审美直觉之间的差异。
研究发现，模型在结合高频概念时表现更好，而在处理低频或长尾概念时联想能力显著下降，揭示了LLM的知识分布对创造性推理能力的潜在限制。
该研究不仅提供了一个新的评估工具，还强调了在推进通用人工智能（AGI）的过程中，必须超越单纯的知识检索，更加重视对模型创造性认知能力的培养与测试。

学习路径

阶段 1：基础认知与理论构建

学习内容:

创造力心理学基础: 理解联想创造力的定义，特别是 Mednick (1962) 提出的“远程联想理论”。了解人类如何通过将不相关的概念联系起来产生创造性想法。
LLM 基本工作原理: 掌握 Transformer 架构、自注意力机制以及大语言模型（LLM）是如何通过概率预测下一个 Token 的。
NLP 中的语义表示: 学习词向量、句向量和嵌入空间的概念，理解模型如何在数学空间中表示“概念”及其距离。

学习时间: 2-3周

学习资源:

论文: Mednick, S. (1962). “The Associative Basis of the Creative Process”.
课程: 斯坦福大学 CS224N (NLP with Deep Learning) 的前几讲，关于 Word Vectors 和 Transformer 的部分。
文章: Jay Alammar 的博客 “The Illustrated Transformer”。

学习建议: 在这个阶段，不要急于写代码。重点在于理解“联想”在人类认知和数学向量空间中的对应关系。尝试理解为什么模型倾向于选择高概率的词（通常是接近的联想），而创造力往往需要低概率的远程联想。

阶段 2：提示工程与启发式探索

学习内容:

提示工程进阶: 学习如何设计 Prompt 来激发模型的创造性潜力，例如使用思维链、角色扮演和上下文示例。
温度参数与采样策略: 深入理解生成过程中的 Temperature、Top-k 和 Top-p 采样对输出随机性和创造性的影响。
现有创造力测试方法: 了解传统的 AI 创造力测试，如“用途测试”或“远距离联想测试（RAT）”，并尝试手动让 LLM 完成这些任务。

学习时间: 2-3周

学习资源:

OpenAI Cookbook: 关于 Prompt 工程和策略的最佳实践指南。
论文: “Language Models are Greedy Reasoners” (了解模型行为的局限性)。
工具: OpenAI Playground (用于调试 Temperature 和 System Prompt)。

学习建议: 动手实践是关键。构建一组测试 Prompt，故意要求模型进行不相关的概念组合。观察调整 Temperature 如何从“安全回答”转变为“创造性胡扯”。记录下模型失败和成功的案例。

阶段 3：自动化评估与指标设计

学习内容:

语义相似度度量: 掌握余弦相似度、BERTScore 和余弦距离等指标，用于量化生成概念之间的“距离”。
发散性评估指标: 学习如何衡量“流畅性”、“灵活性”和“原创性”。例如，计算生成列表的唯一性比例。
LLM-as-a-Judge: 利用 GPT-4 等更强模型来对较小模型的输出进行打分和评估。

学习时间: 3-4周

学习资源:

库: Hugging Face Transformers (用于加载 embedding 模型)，Scikit-learn (计算相似度)。
论文: “Judging LLM-as-a-Judge” 相关研究。
数据集: 查阅 Kaggle 或 Papers With Code 上的 RAT (Remote Associates Test) 数据集。

学习建议: 尝试复现论文中的评估逻辑。编写 Python 脚本，计算一组生成词与目标词之间的平均语义距离。你需要建立一个自动化的评估流水线，而不是人工阅读每一个生成结果。

阶段 4：实验复现与系统构建

学习内容:

阅读目标论文: 深入研读 “Testing LLMs for Associative Creativity” (arxiv来源)，理解作者设计的具体实验框架、控制变量和评估维度。
构建测试框架: 搭建一个端到端的测试系统，包含数据集加载、Prompt 模板管理、模型调用和结果分析模块。
控制变量实验: 对比不同模型（如 GPT-3.5 vs Llama 2）、不同 Prompt 技巧在联想创造力任务上的表现差异。

学习时间: 4-6周

学习资源:

目标论文: “Testing LLMs for Associative Creativity” (来自 arXiv)。
代码框架: LangChain 或 LlamaIndex (用于管理复杂的 LLM 调用链)。
版本控制: Git 和 GitHub (管理实验代码)。

学习建议: 这是本路径的核心实战阶段。不要只满足于跑通代码，要尝试改进论文中的 Prompt 或评估指标。思考论文中的实验是否有局限性？例如，是否忽略了文化差异对联想的影响？

阶段 5：前沿探索与优化

学习内容:

微调与强化学习: 探索如何通过 SFT (监督微调) 或 RLHF (基于人类反馈的强化学习) 来增强模型的特定联想能力，打破仅依赖 Prompt 的限制。
越狱与对抗性攻击: 研究如何通过特殊的

常见问题

1: 什么是“联想创造力”，为什么它对测试大型语言模型（LLM）很重要？

A: 联想创造力是指将两个或多个原本不相关的概念或元素联系起来，从而产生新颖且有意义的想法的能力。这不同于纯粹的随机组合，而是要求结果在某种语境下具有逻辑性或价值。在测试 LLM 时，评估联想创造力非常重要，因为它是衡量模型是否真正“理解”概念之间深层语义关系的关键指标。仅仅通过概率预测下一个词（即传统的“完形填空”式能力）并不足以证明模型具备创造性思维。通过测试联想创造力，研究人员可以判断模型是仅仅在重复训练数据中的模式，还是能够进行真正的概念重组和推理。

2: CREATE 测试框架的核心方法论是什么？

A: CREATE（Creativity Represented by Associative Testing in English）框架的核心在于利用远程联想测试的原理，通过自动化生成的提示词来评估模型。其方法论通常包含以下几个步骤：首先，系统会选取一组看似不相关的“线索词”；其次，要求模型生成一个能够将这些线索词联系起来的“联想词”；最后，通过评估模型生成的答案是否合理、是否能够准确捕捉到线索词之间的潜在联系，来给模型打分。这种方法将原本需要人类主观判断的创造性任务，转化为可以通过自然语言处理（NLP）技术进行自动化评估的客观指标。

3: 该研究发现不同规模的 LLM 在联想创造力方面表现如何？

A: 研究通常发现，模型的参数规模与其在联想创造力任务上的表现呈正相关。也就是说，模型越大（参数量越多），其解决远程联想问题的能力通常越强。大模型往往能够捕捉到更细微的语义特征和更抽象的概念联系。然而，研究也指出，单纯增加参数量并不总是线性提升创造力，某些架构的优化或训练数据的特定分布也会显著影响模型在联想任务中的表现。此外，即使是最先进的大型模型，在面对某些需要极高抽象思维或非常规跳跃的联想任务时，仍然可能面临挑战，表现出与人类认知差异的局限性。

4: CREATE 框架如何解决评估 LLM 创造力时的“主观性”难题？

A: 传统的创造力测试（如图形联想或故事续写）很难通过自动化手段评分，因为“新颖性”和“价值”往往依赖人类评委的直觉。CREATE 框架通过设计“收敛性”任务（即存在唯一或少数几个标准答案的任务）来规避这个问题。在远程联想测试中，虽然思维过程是发散的，但目标通常是收敛的（例如，给定“ Cottage / Swiss / Cake”，答案必须是“Cheese”）。这使得研究者可以使用基于嵌入向量的相似度匹配或精确匹配算法来自动判断模型答案的正确性，从而实现了对模型联想能力的大规模、可重复的量化评估。

5: 这项研究对于 AI 的未来发展有什么实际意义？

A: 这项研究具有重要的实际意义。首先，它提供了一种标准化的基准，有助于开发者更有效地比较不同模型的推理能力，推动算法从简单的文本生成向深层次概念理解进化。其次，提高模型的联想创造力直接关系到 AI 在科学发现、产品设计和艺术创作等领域的应用潜力。如果 AI 能更好地掌握概念间的远程联系，它就能成为人类更具价值的辅助工具，提供更具启发性的建议。最后，理解 LLM 如何实现联想创造力，也有助于解释深度学习模型的“黑盒”性质，促进可解释性 AI（XAI）的发展。

6: 现有的 LLM 在通过 CREATE 测试时，主要表现出哪些缺陷或局限性？

A: 尽管最先进的模型表现良好，但研究也揭示了它们的一些局限性。首先，模型有时会表现出“表面联想”的倾向，即基于词语的共现频率或字面相似性进行联想，而不是基于深层的语义逻辑。其次，模型在处理涉及特定文化背景、双关语或多义词的联想问题时，往往表现不如人类，这反映了它们缺乏真实世界的具身经验。最后，某些模型可能会产生“幻觉”联想，即自信地给出一个在语法上通顺但在逻辑上完全无法将线索词联系起来的答案，这表明其推理链条在某些情况下仍然是不稳定的。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

请设计一个基础的提示词，要求大语言模型（LLM）生成一个“交通工具”与“水果”的创造性组合概念（例如：会飞的西瓜车）。请写出你的提示词，并解释为什么这个简单的提示词能够测试模型的联想能力。

提示**:

引用

ArXiv: http://arxiv.org/abs/2603.09970v1
PDF: https://arxiv.org/pdf/2603.09970v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： LLM / CREATE基准 / 联想创造力 / 模型评估 / 推理能力 / 思维链 / Prompt工程 / AI评测
场景：大语言模型 / AI/ML项目

SokoBench：评估大模型长程规划与推理能力
CHIMERA：用于提升大模型推理泛化能力的紧凑合成数据
推理机制如何提升大模型的诚实度
SokoBench：评估大模型长周期规划与推理能力
停止生成，开始思考：大模型推理能力进化路径 本文由 AI Stack 自动生成，深度解读学术研究。

CREATE基准：测试大语言模型的联想创造力