CREATE基准测试：评估大模型联想创造力

基本信息

ArXiv ID: 2603.09970v1
分类: cs.CL
作者: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
PDF: https://arxiv.org/pdf/2603.09970v1.pdf
链接: http://arxiv.org/abs/2603.09970v1

导语

本文提出了 CREATE 基准，旨在评估大语言模型在概念间建立新颖且有意义联系的联想创造力。该基准通过生成知识路径，依据特异性和多样性对模型进行严格测试，结果显示现有前沿模型虽表现更优，但现有提示技巧提升有限，且任务本身难以被单纯的数据规模所饱和。这一发现为未来开发更具联想推理能力的模型提供了有效的测试平台，不过具体的改进方向尚无法从摘要确认。

摘要

本文介绍了CREATE，一个旨在评估大语言模型（LLM）联想创造力的新基准测试。

核心内容： 创造力的重要组成部分是联想推理，即在概念间建立新颖且有意义的联系。CREATE基准通过要求模型生成连接概念的知识路径，来评估其联想推理能力。

评估标准： 评分主要依据两个维度：

特异性： 路径的独特性及概念连接的紧密程度。
多样性： 不同路径之间的差异程度。模型生成的强关联、多样化路径越多，得分越高。

任务特点与结果：

挑战性： 该任务搜索空间极大，类似于假设生成等真实创造性任务，使得基准很难被模型“刷满”或饱和。
模型表现： 评估显示，目前的前沿模型确实比其他模型表现出更高的创造性效用。
局限性： 即使拥有较高的token预算，“思维模型”在此任务上并不总是更有效，现有的创意提示技巧带来的提升也较为有限。

意义： CREATE为开发新方法以提升模型联想创造力提供了一个有效的测试平台。

技术分析

以下是对论文《CREATE: Testing LLMs for Associative Creativity》的深入分析。

深入分析论文：CREATE - 评估大语言模型的联想创造力

1. 研究背景与问题

核心问题： 本研究旨在解决如何量化评估大语言模型（LLM）在“联想创造力”方面的表现。具体而言，研究关注模型是否能够在看似无关的概念之间建立新颖、有意义且多样化的联系路径，而不仅仅是检索高频的共现信息。

研究背景与意义： 创造力通常被视为人类智慧的皇冠，而“联想能力”是创造力的核心认知机制之一（即“梅德尼克联想层级理论”）。随着LLM在文本生成上展现出惊人的能力，业界和学界迫切需要知道：这些模型是在真正地进行“创造性推理”，还是仅仅在进行概率性的“记忆插值”？现有的评估基准（如MMLU、GSM8K）主要关注事实知识和逻辑推理，缺乏对发散性思维和联想跳跃能力的有效测试。CREATE的提出填补了这一空白，为理解LLM的“机器幻觉”与“创造力”之间的界限提供了新的视角。

现有方法的局限性：

基于N-gram的相似度指标不足： 传统的评估方法（如BLEU、ROUGE）倾向于惩罚与参考答案不同的文本，这与“创造力”要求的“新颖性”背道而驰。
缺乏结构化评估： 以往的创意写作评估往往依赖主观的众包评分，成本高且难以复现。
饱和度过快： 许多简单的创意任务（如续写句子）很容易被当前的大模型通过训练数据记忆“刷分”，无法区分模型的真实推理能力。

重要性： 联想创造力是科学发现、隐喻生成和问题解决的基础。如果LLM具备此能力，它们将成为人类强大的科研辅助工具；反之，如果它们只能进行平庸的联想，其应用场景将受到严格限制。

2. 核心方法与创新

核心方法：CREATE基准 作者提出了一个基于概念链接的生成式评估框架。任务设定为：给定两个看似无关的概念（例如，“Zebra”和“Office”），模型需要生成一条知识路径来连接它们（例如：Zebra -> Crossing -> Pedestrian -> Office）。

技术创新点与贡献：

自动化的基于LLM的评估器： 这是一个关键创新。由于创造性任务没有标准答案，作者利用GPT-4作为评判器，基于“特异性”和“多样性”两个维度对模型生成的路径进行打分。这种方法既保留了主观评估的灵活性，又实现了自动化的大规模测试。
发散性思维量化： 区别于传统的收敛性任务（只有一个正确答案），CREATE强制模型生成多条不同的路径，从而量化模型的发散思维广度。
受控的搜索空间： 通过构建概念对，作者创造了一个巨大的搜索空间，使得简单的概率猜测难以奏效。

方法的优势：

抗饱和： 由于概念组合的 combinatorial explosion（组合爆炸），模型很难仅靠训练数据的记忆来覆盖所有测试样本。
可解释性： 相比于直接生成一段创意文本，生成“推理路径”让人类更容易审视模型的联想逻辑是否合理。

3. 理论基础

理论依据： 本研究主要基于心理学中的联想主义理论。

语义距离： 创造力往往源于在语义网络中跨越较远的距离进行连接。
双爬理论： 创造性思维被描述为“扁平化”的联想思维，即能够接受那些在常规思维中被抑制的微弱关联。

算法设计逻辑：

特异性： 对应于信息论中的“低概率”事件。生成的路径越罕见、越具体，特异性得分越高。
多样性： 对应于向量空间中的“覆盖度”。要求生成的多条路径在语义向量空间中相互远离，避免重复。

理论贡献分析： 论文从理论上探讨了LLM的“温度”参数与创造力之间的关系。通常认为较高的温度能带来更高的随机性（可能对应创造力），但CREATE的实验表明，仅有随机性是不够的，还需要模型具备扎实的语义关联能力来维持路径的“意义性”。

7. 学习建议

适合读者：

从事NLP评估研究的学者。
关注AI创造力、计算美学的研发人员。
心理学与AI交叉领域的研究者。

前置知识：

大语言模型的基本原理（Transformer架构）。
Prompt Engineering基础。
基础的心理学概念（发散性思维）。

阅读建议：

先阅读Introduction，理解作者如何定义“联想创造力”。
重点阅读Method部分，特别是如何构建Prompt让GPT-4充当裁判。
分析Error Cases部分，这是理解模型认知缺陷的关键。

研究最佳实践

实践 1：构建多维度的联想能力评估框架

说明: 联想创造力不仅仅是指词汇的邻近性，还包括概念组合、远距离联想和跨领域映射的能力。评估框架应涵盖语义距离、创新性和实用性三个维度，以全面衡量LLM在联想任务中的表现。

实施步骤:

定义联想能力的评估维度，如语义距离、新颖性和逻辑连贯性
设计涵盖不同难度级别的联想任务，包括近义词、远距离联想和跨概念组合
建立标准化评分体系，量化模型输出的创造性表现

注意事项: 确保评估任务具有足够的区分度，能够区分简单词汇匹配和真正的创造性联想

实践 2：设计受控的提示词工程策略

说明: 提示词的设计对LLM的创造性输出有显著影响。需要系统性地测试不同提示策略（如直接提示、链式思考提示、示例提示）对联想创造力的影响，以找到最佳激发创造力的提示方式。

实施步骤:

准备多组对照提示词模板，包括零样本、少样本和思维链提示
控制变量测试，保持任务一致，仅改变提示策略
记录并分析不同提示策略下模型输出的创造性指标差异

注意事项: 避免提示词中包含过多引导性信息，以免限制模型的创造性发散

实践 3：建立人类专家与自动化评估的混合机制

说明: 纯自动化指标难以准确评估创造性内容的质量。应结合人类专家的主观评估和自动化客观指标，形成更可靠的评估体系。

实施步骤:

招募具备相关背景的人类评估专家
制定详细的评估指南和评分标准
使用自动化指标（如困惑度、BERTScore）进行初筛
对高潜力输出进行人工深度评估

注意事项: 确保人类评估者之间的一致性，定期进行校准会议

实践 4：实施跨领域的联想迁移测试

说明: 真正的创造力体现在将一个领域的概念迁移到另一个领域的能力。测试应包含跨领域概念组合任务，评估模型的类比推理和隐喻生成能力。

实施步骤:

构建跨领域概念对数据集，确保领域间有明确的语义距离
设计任务要求模型将源领域的概念映射到目标领域
评估映射的合理性和新颖性

注意事项: 选择领域时应考虑文化普遍性和领域特异性，避免偏见

实践 5：进行对抗性压力测试

说明: 通过设计极端或边界条件下的联想任务，测试LLM在压力情况下的创造性表现，包括处理矛盾概念、荒谬组合等挑战性任务。

实施步骤:

设计包含矛盾或冲突元素的测试用例
逐步增加任务难度，观察模型崩溃点
记录模型在极端情况下的应对策略和输出质量

注意事项: 压力测试应保持合理性，避免无意义的组合导致评估失效

实践 6：建立动态迭代的测试数据集

说明: 创造力评估需要避免数据污染。应建立动态更新的测试集，定期引入新的联想任务和评估标准，防止模型通过训练数据记忆而非真正理解来通过测试。

实施步骤:

建立初始测试集，涵盖多种联想类型
定期（如每季度）更新部分测试内容
监控模型在不同版本测试集上的表现差异

注意事项: 更新测试集时应保持评估标准的一致性，确保结果可比性

实践 7：分析联想过程的中间状态

说明: 不仅评估最终输出，还应分析模型生成联想过程中的中间状态，理解其联想路径和决策逻辑。

实施步骤:

使用探测技术提取模型中间层的表示
分析注意力权重，追踪联想焦点转移
可视化联想路径，识别创造性突破点

注意事项: 中间状态分析需要专业的模型解释工具，确保分析结果的可靠性

学习要点

现有的LLM评估基准主要关注事实回忆和逻辑推理，缺乏对联想创造力这一核心认知能力的有效测试，导致模型在需要概念融合的创造性任务上表现不佳。
CREATE基准测试通过强制模型在看似无关的概念之间建立联系，从而填补了评估模型生成新颖且有意义想法能力的空白。
研究发现，尽管LLM在流畅性（生成数量）上表现出色，但在灵活性（跨越不同类别）和原创性（生成罕见想法）方面仍显著落后于人类水平。
当前的LLM倾向于生成高频、陈词滥调的联想组合，难以模拟人类创造思维中“跳跃性”和“远距离”的语义连接。
现有的提示工程（如思维链）对提升联想创造力效果有限，表明这一能力不能仅靠指令微调或增加模型规模来线性解决。
该研究引入了基于语义距离和统计稀有度的自动化评估指标，为量化机器创造力提供了一套超越传统主观评判的客观标准。

学习路径

阶段 1：基础理论与背景知识

学习内容:

联想创造力的定义及其在认知心理学中的理论基础
大语言模型（LLM）的基本原理与架构（如Transformer、注意力机制）
LLM在生成任务中的常见能力与局限性
评估LLM性能的基本指标与方法（如BLEU、ROUGE、人工评估）

学习时间: 2-3周

学习资源:

论文：《Attention Is All You Need》（Transformer基础）
书籍：《深度学习》（Goodfellow等）相关章节
课程：斯坦福大学CS224N《自然语言处理》
综述文章：《Language Models are Few-Shot Learners》

学习建议: 重点理解LLM的生成机制及其与人类创造力的异同。通过阅读经典论文和综述，建立对LLM评估的整体认知。

阶段 2：联想创造力的评估方法

学习内容:

联想创造力的具体评估维度（如新颖性、实用性、流畅性）
现有LLM联想创造力测试数据集（如CreaEval、DivCreative）
自动化评估指标的设计（如基于语义相似度的多样性度量）
人工评估协议的设计与实施

学习时间: 3-4周

学习资源:

论文：《Testing LLMs for Associative Creativity》（目标论文）
数据集：CreaEval、DivCreative（GitHub或Hugging Face）
工具：Hugging Face Datasets库
案例：相关论文的实验设计部分

学习建议: 深入分析目标论文的实验设计，尝试复现其评估方法。对比不同评估指标的优缺点，思考如何改进。

阶段 3：实验设计与实现

学习内容:

实验设计的基本原则（控制变量、随机化、样本量计算）
使用Python和PyTorch/TensorFlow实现LLM联想创造力测试
数据预处理与模型调用（如GPT-3、BERT等）
结果分析与可视化（如使用Matplotlib、Seaborn）

学习时间: 4-6周

学习资源:

代码库：Hugging Face Transformers
教程：《Python for Data Analysis》
平台：Google Colab、Kaggle（免费GPU资源）
论文：《Evaluating Neural Network Representations》

学习建议: 从简单的实验开始，逐步扩展到多模型、多数据集的对比。注重代码的可复现性和实验记录。

阶段 4：高级主题与前沿探索

学习内容:

多模态LLM的联想创造力评估（如文本-图像生成）
动态评估与交互式测试方法
联想创造力与其他认知能力的关联（如推理、记忆）
伦理问题与偏见分析

学习时间: 6-8周

学习资源:

论文：《Multimodal Learning with Transformers》
会议：ACL、NeurIPS、ICLR相关论文
博客：OpenAI、DeepMind官方技术博客
工具：Gradio（交互式评估界面）

学习建议: 关注最新研究动态，尝试提出改进现有评估方法的创新点。参与学术讨论或开源项目。

阶段 5：精通与独立研究

学习内容:

设计原创的联想创造力评估框架
发表研究成果或开源工具
跨学科应用（如教育、艺术创作）
长期跟踪LLM创造力的发展趋势

学习时间: 持续学习

学习资源:

期刊：Journal of Artificial Intelligence Research（JAIR）
社区：Reddit r/MachineLearning、Papers with Code
工具：GitHub（托管开源项目）
平台：arXiv（预印本论文）

学习建议: 将所学应用于实际问题，形成个人研究体系。定期总结并分享经验，建立学术或行业影响力。

常见问题

什么是“联想创造力”，为什么它对测试大语言模型（LLM）很重要？

联想创造力是指将两个或多个原本不相关的概念联系起来，以产生新想法或解决特定问题的能力。在心理学中，这通常通过“远程联想测试”（RAT）来衡量。对于大语言模型而言，这种能力非常重要，因为它不仅是生成新颖内容的基础，也是衡量模型是否真正“理解”概念之间深层语义关系的关键指标，而不仅仅是基于概率的文本续写。如果模型具备良好的联想创造力，它在创意写作、问题解决和头脑风暴等任务中会有更好的表现。

CREATE 测试基准是如何评估模型的联想创造力的？

CREATE（Creativity Associative Task for Evaluating）是一个专门设计用于评估 LLM 联想创造力的基准测试。它通常采用多轮对话的形式，向模型展示一组看似不相关的词汇（线索词），要求模型找到一个能够将这些词语联系起来的“目标词”。例如，给定线索词“老鼠”、“尖锐”、“奶酪”，模型需要联想到“捕鼠器”或“牙齿”等答案。测试的重点在于模型能否跨越语义鸿沟，识别出潜在的共同联系。

CREATE 测试与传统的远程联想测试（RAT）有什么区别？

传统的 RAT 通常是静态的、单次的测试，而 CREATE 是专门针对 LLM 的对话特性设计的。CREATE 的主要区别在于它引入了“交互式”和“多轮”的评估机制。它不仅测试模型能否直接给出答案，还测试模型在得到提示或反馈后，能否进一步调整思路或产生新的联想。这种设计更能反映 LLM 在实际应用场景中（如辅助人类创作）的动态创造力表现。

在 CREATE 基准测试中，目前表现最好的模型是哪个？GPT-4 表现如何？

根据该研究的结果，模型的表现与其规模呈正相关，但在联想创造力任务上，即使是目前最先进的模型（如 GPT-4）也面临挑战。通常情况下，GPT-4 或同级别的闭源模型在 CREATE 测试中表现优于开源的小型模型。然而，研究往往发现，LLM 在处理需要极高跨度联想的难题时，准确率仍有待提高。这表明现有的模型虽然掌握了丰富的语义知识，但在灵活调用这些知识进行“跳跃式”连接方面，仍与人类直觉存在差距。

为什么大语言模型在处理简单的联想问题时表现良好，却在复杂问题上容易失败？

这种现象通常被称为“联想悖论”。模型在简单问题上表现良好，是因为这些概念在训练数据中经常共同出现，统计概率很高。然而，当问题需要连接那些在统计上极少共同出现的远程概念时，模型往往会失败。这是因为 LLM 本质上依赖于统计共现性，而不是像人类那样基于对世界运作方式的因果理解或物理经验来进行类比推理。CREATE 测试正是为了揭示这种局限性而设计的。

这项研究对于未来开发更有创意的 AI 有什么启示？

这项研究指出了当前 LLM 在创造力评估中的一个盲点：仅仅增加模型规模或训练数据量并不能线性提升联想创造力。未来的 AI 开发需要关注如何让模型更好地理解概念之间的深层功能关系，而不仅仅是语义上的接近度。此外，它强调了开发更具动态性和交互性的评估基准的重要性，因为静态测试无法全面反映模型在辅助人类进行创造性思考时的潜力。

CREATE 数据集包含哪些类型的问题或任务？

CREATE 数据集通常包含经过精心筛选的词汇三元组，这些词汇涵盖了从具体物体到抽象概念的广泛范围。数据集的难度通常分为不同等级：有些是“近距离联想”（概念相关性强，较容易），有些是“远距离联想”（概念相关性弱，极难）。通过这种分级，研究人员可以更细致地分析模型在不同认知负荷下的表现，区分模型是“猜到了”答案还是真正“理解”了联系。

引用

ArXiv: http://arxiv.org/abs/2603.09970v1
PDF: https://arxiv.org/pdf/2603.09970v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： CREATE / 联想创造力 / 基准测试 / LLM评估 / 思维链 / 推理能力 / arXiv / cs.CL
场景：大语言模型

CREATE基准测试：评估大模型联想创造力