前沿AI评估：RCT与人类提升研究的方法挑战与解决方案

基本信息

ArXiv ID: 2603.11001v1
分类: cs.CY
作者: Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal
PDF: https://arxiv.org/pdf/2603.11001v1.pdf
链接: http://arxiv.org/abs/2603.11001v1

导语

本文探讨了利用随机对照试验（RCTs）评估前沿 AI 系统的方法论挑战，旨在通过“人类赋能研究”衡量 AI 对人类绩效的影响。作者基于对 16 位专家的访谈，总结了此类实验在实践中的具体障碍并提出应对方案。虽然摘要未详述具体的解决方案细节，但该工作为建立更严谨的 AI 评估标准提供了实证基础，有助于推动以人为中心的 AI 安全研究。

摘要

本文探讨了在评估前沿人工智能系统时，使用“人类提升研究”（即通过随机对照试验 RCTs 测量 AI 对人类表现的影响）所面临的方法论挑战及实践解决方案。

核心发现： 研究团队采访了16位在生物安全、网络安全、教育和劳动力领域的专家实践者。专家们指出，标准的因果推断假设与前沿 AI 的独特属性之间存在持续的张力。

主要挑战： 前沿 AI 的快速迭代、基线的不断变化、用户熟练度的差异与变化，以及现实世界的复杂环境，严重限制了研究的内部效度、外部效度和构念效度。这使得证据的解释变得困难，难以直接支持高风险的决策。

研究目的： 文章旨在综合这些挑战，并提出实践者在研究生命周期中采用的解决方案，以明确此类证据的局限性及在高风险决策中的合理用途。

论文评价：RCTs & Human Uplift Studies——前沿AI评估中的方法论困境与求解

总体评价 这篇论文针对前沿AI（Frontier AI）评估中一个日益关键但鲜受深入审视的领域——基于人类提升研究的随机对照试验（RCTs）——进行了方法论的解剖。文章没有提出新的数学模型，而是通过定性研究，揭示了将经典因果推断工具应用于具有“代理性”和“快速迭代性”的AI系统时产生的根本性摩擦。这是一篇在当前AI安全与治理领域具有“破冰”意义的文章，它指出了现有的评估体系在应对高风险决策时的脆弱性。

以下是基于七个维度的深入分析：

1. 研究创新性

Claim（声称）： 论文声称标准的RCTs假设与前沿AI的动态特性之间存在持续的张力，且传统的“静态快照式”评估不足以捕捉AI对人类能力的长期影响。
Evidence（证据）： 研究团队通过对16位跨领域（生物安全、网络安全等）专家的半结构化访谈，提取了关于基线漂移、用户技能演变和生态位复杂性的一手定性数据。
Inference（推断）： 创新点在于识别出**“评估对象非静止性”**这一核心特征。传统的药物RCT假设药物在试验期间性质不变，而AI模型（尤其是基于RLHF或Agent）会随着用户交互而“学习”或表现出突发行为。
评价： 该研究极具前瞻性。它跳出了“模型打分”的单一维度，转向了“人机系统”的协同效应评估，创新性地将软件工程中的“技术债”概念引入了AI评估的科学方法论，指出快速迭代的模型会产生“评估债”。

2. 理论贡献

Claim（声称）： 文章指出SUTVA（稳定单元处理值假设）在AI人机交互场景中频繁失效。
Analysis（分析）： 在经典RCT理论中，一个受试者的处理不应影响其他受试者（无干扰）。但在AI场景下，如果AI模型是基于全局数据更新的（如在线学习），或者用户之间通过社交媒体分享AI生成的策略，**“溢出效应”**是不可避免的。
Contribution（贡献）： 论文对因果推断理论在AI时代的适用性提出了严峻挑战。它暗示我们需要从**“静态因果推断”转向“动态因果推断”或“系统动力学”**视角，重新定义干预变量。这补充了现有的AI评估理论，特别是关于内部效度（由于模型迭代导致的混淆）和构念效度（我们在测量的是“能力”还是“应试技巧”？）的讨论。

3. 实验验证与可靠性

Critical Analysis（批判性分析）：
- 样本局限性： 16位专家的样本量虽然符合定性研究的饱和原则，但在统计学广度上略显不足。特别是如果这些专家主要来自某一特定AI范式（如大语言模型），其结论可能无法推广到具身智能或生成式视频领域。
- 主观性偏差： 访谈高度依赖受访者的主观经验。受访者可能存在“幸存者偏差”，即只有那些对AI评估有强烈看法（通常是负面或复杂看法）的人才会接受访谈。
Reliability（可靠性）： 定性研究的信度通常较低。论文未提供详细的编码本或受访者人口统计学特征，这使得验证“挑战”是否普遍存在变得困难。

4. 应用前景

Practical Value（应用价值）： 极高。随着欧盟AI法案和美国EO 14110的推进，监管机构迫切需要可靠的“红队测试”和“人类在环”评估数据。
Scenario（场景）： 在网络安全领域，评估AI助手是否能防御黑客攻击。如果仅使用RCT，可能会因为AI在测试期间的知识截止或黑客策略的快速进化，导致测试结果无效。本文提出的解决方案（如滚动基线、标准化对手）直接指导了高风险场景下的合规性测试设计。

5. 可复现性

Status（现状）： 低。
Reason（原因）： 作为一篇定性方法学论文，其核心产出是“专家观点”和“框架”，而非代码或数据集。由于访谈记录通常涉及隐私且未公开，外部研究人员无法复现其访谈过程。
Improvement（改进建议）： 为了提高可复现性，作者应发布详细的访谈提纲、编码框架以及（经过脱敏的）引用语料库。

6. 相关工作对比

Comparison（对比）：
- 与传统基准测试（如MMLU, HumanEval）： 传统测试关注模型静态能力，本文关注模型对人类的动态影响。本文的工作是对“静态基准”在安全相关任务上不足的有力补充。
- 与AI安全/对齐研究（如Anthropy的Red Teaming）： 现有的Red Teaming侧重于发现模型的“坏输出”（越狱），而本文侧重于评估“坏后果”（人类能力的退化或错误依赖）。
- 优劣： 本文在方法论反思上优于单纯的工程报告，但在具体的量化指标构建上不如传统机器学习论文扎实。

7. 局限性和未来方向

Key Assumptions & Failure Conditions（关键假设与失效条件）：
- 假设： 专家能够准确感知AI带来的长期变化。
- 失效条件： 人类专家存在“达克效应

技术分析

以下是对论文《RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation》的深入分析。

论文深入分析：RCTs 与人类提升研究——前沿 AI 评估的方法论挑战与实践解决方案

1. 研究背景与问题

核心问题

本研究旨在解决一个在人工智能安全与评估领域日益紧迫的问题：如何利用随机对照试验（RCTs）有效地评估前沿 AI 系统对人类能力的实际提升效果？ 具体而言，当传统的因果推断工具（RCTs）遭遇具有快速迭代、高复杂性和高风险特征的前沿 AI 时，现有的评估框架在方法论上为何失效，以及应如何修正。

问题背景与意义

随着 AI 系统（尤其是大语言模型和生成式 AI）向“前沿”发展，其应用场景已从简单的辅助任务扩展到生物安全、网络安全等高风险领域。评估这些系统的重心正从单纯的“模型基准测试”转向“人类-AI 协作效果”。然而，决策者（如政府监管机构、企业高管）急需基于证据的评估来指导 AI 的部署和监管。RCTs 作为医学和社会科学中的“金标准”，被自然地引入这一领域，但其静态的实验假设与 AI 的动态特性之间存在根本性的错位。

现有方法的局限性

现有的 AI 评估主要依赖于静态基准测试或简单的 A/B 测试。这些方法往往忽略了“人类适应”这一变量，或者假设 AI 模型在实验期间保持不变。在传统 RCT 中，干预（如药物）通常是稳定的；而在 AI 评估中，模型会更新，用户的学习曲线会变化，导致传统 RCT 的内部效度（因果归因）和外部效度（现实泛化）均受到严重损害。

重要性

如果无法准确评估 AI 对人类能力的提升（或降低），我们可能会：

低估风险：部署看似有用但实际在特定压力下会崩溃的系统。
错失机会：因误判而限制能够极大增强人类能力的有益技术。
监管失效：建立在不稳固证据基础上的政策可能无法防范真正的 AI 带来的生存性风险。

2. 核心方法与创新

提出的核心方法

本研究并非提出单一的算法，而是提出了一种基于实证的方法论框架。研究团队通过对 16 位来自生物安全、网络安全等领域的专家进行深度访谈，采用定性研究方法，系统性地梳理了在“人类提升研究”中实施 RCT 的挑战，并归纳了一套实践者在研究生命周期中自发采用的“变通方案”。

技术创新点与贡献

领域特定性的深入挖掘：不同于通用的 AI 伦理讨论，本文聚焦于生物安全和网络安全等高风险领域，揭示了在这些特定语境下评估 AI 的独特困难（如缺乏真实攻击数据的基线）。
动态效度的重构：文章创新性地指出了前沿 AI 评估中“效度”概念的流动性。传统的内部/外部效度二分法在 AI 快速迭代面前显得僵化，文章建议采用更具迭代性和适应性的评估视角。
实践解决方案的归纳：将零散的实践智慧整理成系统的方法论建议，例如如何处理基线漂移、如何测量用户熟练度变化等。

方法的优势与特色

真实性：基于真实一线专家的经验，而非纯粹的理论推演。
前瞻性：直接针对“前沿 AI”的特征（如 Agent 能力、多模态），而非仅关注传统分类任务。
跨学科融合：将流行病学和社会科学中的因果推断逻辑与计算机科学中的系统评估相结合。

3. 理论基础

使用的理论基础或假设

因果推断框架：基于 RCT 的反事实框架，即通过比较处理组（使用 AI）和控制组（不使用 AI）的差异来推断因果效应。
效度理论：引用了 Campbell 的效度分类理论（内部效度、外部效度、构念效度），作为分析评估偏差的理论透镜。
人机交互（HCI）理论：隐含了技术接受模型和共同适应的概念，即人类和 AI 会相互影响，而非单向的“工具-使用者”关系。

理论分析与证明

文章通过定性分析证明了：

SOTA 假设的崩塌：在传统 RCT 中，对照组通常代表“标准护理”；但在前沿 AI 领域，今天的 SOTA 可能下周就被淘汰，导致对照组的定义迅速失效。
熟练度偏差：用户对 AI 的熟练度不是固定的，随着交互时间的增加，人类的表现会非线性变化，这违反了传统统计学中关于独立同分布（I.I.D）的假设。

理论贡献

本文对 AI 安全评估理论的主要贡献在于指出了**“静态评估范式”与“动态技术对象”之间的本体论矛盾**。它呼吁建立一套新的评估理论，该理论必须包含时间维度和迭代维度。

7. 学习建议

适合什么背景的读者

AI 安全研究者与工程师：特别是从事模型评估、红队测试的人员。
政策制定者与伦理学家：需要理解 AI 评估证据局限性的人。
社会科学研究者：对技术感兴趣，特别是因果推断、实验设计方向的学者。

需要哪些前置知识

基础 AI 知识：了解 LLM 的基本工作原理和当前的 SOTA 局势。
实验设计基础：理解 RCT、内部/外部效度、统计显著性等概念。
人机交互（HCI）基础：理解人机协作中的摩擦与适应过程。

研究最佳实践

实践 1：采用阶梯式随机对照试验设计

说明: 传统的 RCT 往往要求一次性将所有受试者随机分配，这在评估前沿 AI 时可能带来伦理风险或资源浪费。阶梯式楔形设计允许按顺序随机将不同的个体或群体从对照组滚动到干预组。这种设计特别适合在资源受限或需要逐步推广 AI 系统的场景下，既能收集纵向数据，又能确保最终所有参与者都能接触到新技术。

实施步骤:

确定参与群体总数及分组的滚动时间窗口。
随机化各组进入干预阶段的顺序，确保时间混杂因素得到控制。
在每个时间点收集对照组与干预组的基线数据和实时反馈数据。
分析数据时，需严格区分时间效应与干预效应，使用稳健的标准误进行统计推断。

注意事项: 必须警惕“遗留效应”或“污染效应”，即早期接受干预的受试者可能会影响尚未接受干预的受试者，导致对照组数据失真。

实践 2：构建多维度的“人类提升”度量指标

说明: 仅关注任务完成速度或准确率等单一指标不足以全面评估 AI 对人类能力的影响。最佳实践要求构建一个包含“能力提升”、“主观感受”和“依赖性”的多维评估体系。这有助于识别 AI 是否真正增强了人类技能，还是仅仅导致了技能退化或过度依赖。

实施步骤:

定义核心维度：如任务效率、错误率、学习曲线、用户自信心、认知负荷及技能保留率。
针对每个维度设计标准化问卷（如 NASA-TLX）和客观测试。
在干预前、干预中及干预后进行多次测量，以捕捉动态变化。
计算综合提升指数，权衡效率增益与潜在的能力退化风险。

注意事项: 避免仅使用自我报告作为唯一数据源，因为用户往往高估 AI 带来的帮助或低估自身的认知退化。

实践 3：严格控制提示工程与系统配置变量

说明: 在前沿 AI 评估中，AI 系统的表现高度依赖于提示词和系统参数。如果 RCT 中不对这些变量进行严格控制，不同受试者面对的“AI 难度”可能不一致，导致研究结果存在巨大偏差。必须将 AI 系统的输入输出作为实验变量进行标准化管理。

实施步骤:

在实验开始前，冻结 AI 模型版本及关键参数（如 Temperature, Top-p）。
为受试者提供标准化的交互脚本或预设提示模板，除非实验目的是测试提示能力。
记录所有用户与 AI 的交互日志，以便后续分析异常输入对结果的影响。
设置“沙箱”环境，防止 AI 因外部联网或插件差异导致表现波动。

注意事项: 需警惕“提示泄露”问题，即对照组用户可能通过非正式渠道获取到优秀的提示词，从而破坏随机分组的有效性。

实践 4：实施盲法与安慰剂对照以消除霍桑效应

说明: 知道自己正在使用先进 AI 的受试者往往会表现出更高的积极性（霍桑效应）或安慰剂效应，从而混淆 AI 的真实效用。实施双盲或单盲设计，引入“安慰剂 AI”（如能力较弱的旧模型或基于规则的系统）作为对照，能更准确地剥离出 AI 的真实技术贡献。

实施步骤:

设计界面外观一致的交互系统，区分“真 AI 组”与“假/弱 AI 组”。
不告知受试者其具体处于哪一组，仅告知其正在测试一个“辅助系统”。
在实验结束后进行揭盲，并询问受试者对自己所使用系统的感知效能，以验证盲法是否成功。
分析数据时，对比两组的实际绩效差异与感知差异。

注意事项: 如果 AI 的效果过于显著，盲法可能会过早失效。需要在伦理知情同意与实验严谨性之间找到平衡点。

实践 5：针对异质性进行分层随机化与亚组分析

说明: 人类受试者之间存在巨大的背景差异（如领域专业知识、技术熟练度、先验经验）。简单的随机分组可能导致关键协变量在组间分布不均。分层随机化和预先设定的亚组分析是确保结果普适性和识别特定人群效应的关键。

实施步骤:

在筛选阶段收集受试者的详细背景信息（如专业技能等级、过往 AI 使用频率）。
根据关键特征（如专家 vs 新手）进行分层随机化，确保各组在基线上具有可比性。
预设亚组分析计划，专门检验 AI 对不同技能水平人群的差异化影响。
报告结果时，不仅要看平均效应，更要详细展示不同亚组的效应分布。

注意事项: 避免在数据收集后进行过度挖掘，即仅根据数据中的偶然相关性进行亚组分析，这会导致虚假阳性结果。

实践 6：建立动态监测机制与安全熔

学习要点

随机对照试验（RCT）是评估前沿 AI 对人类能力影响的黄金标准，但面临样本量要求高、成本昂贵以及难以完全消除外部干扰等实施挑战。
现有的 AI 评估基准往往无法准确反映真实场景下的“人类提升”效果，导致实验室高分与实际应用中的低效用之间存在显著差距。
为了解决统计功效不足的问题，研究建议采用分层随机化和配对设计等优化方法，以在有限的样本量下提高实验的敏感度。
评估模型不应仅关注任务完成的准确性，更需引入“人类提升率”等指标，量化 AI 辅助相对于人类基线水平的边际贡献。
研究揭示了 AI 辅助可能带来的“技能退化”风险，即过度依赖模型可能导致人类独立解决问题能力的下降，需在评估中加以权衡。
针对开放式任务的评估极具挑战性，解决方案包括建立更细粒度的评分量表，并利用强模型本身作为评估器来辅助判断人类产出的质量。
在实际部署中，必须警惕“不平等扩大”效应，即 AI 工具可能更有利于高技能用户，从而在评估中掩盖对不同技能水平群体的真实影响差异。

学习路径

阶段 1：基础概念与方法论构建

学习内容:

RCTs（随机对照试验）的核心原理：理解随机化、对照组设置、统计显著性等基本概念。
Human Uplift（人类提升）的定义：明确“提升”在AI评估中的具体含义，即AI如何增强人类的能力、福祉或表现。
AI评估的基本框架：了解传统AI评估指标与人类中心评估的区别。
伦理与隐私基础：学习涉及人类受试者研究时的伦理审查流程（如IRB）和隐私保护原则。

学习时间: 2-3周

学习资源:

书籍：《Field Experiments》by Alan S. Gerber and Donald P. Green（重点阅读RCT设计章节）。
在线课程：Coursera上的“Design and Interpretation of Clinical Trials”或类似社会科学实验设计课程。
论文：阅读关于“Human-in-the-loop”评估的经典综述文章。

学习建议: 不要急于深入复杂的AI模型，先确保理解为什么需要RCT来验证AI对人类的影响。尝试设计一个简单的非技术性实验（例如测试不同工具对工作效率的影响）来练习实验设计思维。

阶段 2：实验设计与实施挑战

学习内容:

前沿AI评估的特殊性：学习生成式AI（如LLM）在输出不确定性、上下文理解方面带来的评估难点。
方法论挑战：深入研究论文中提到的具体挑战，如样本量计算、霍桑效应、安慰剂效应的控制。
干预措施的设计：如何定义和标准化“AI辅助”这一干预变量。
数据收集策略：设计有效的问卷、访谈协议和行为追踪指标。

学习时间: 3-4周

学习资源:

核心文献：精读 RCTs & Human Uplift Studies 论文的第一、二部分，重点关注“Methodological Challenges”章节。
补充阅读：寻找关于“NLP Evaluation”或“LLM Human Evaluation”的近期研讨会论文（如ACL、EMNLP会议）。
工具：了解Qualtrics或Google Forms等调查工具的高级功能。

学习建议: 在此阶段，应开始批判性地阅读现有的AI评估论文。问自己：他们的对照组设置合理吗？是否存在测量偏差？尝试复现或改进一个现有的简单实验设计。

阶段 3：统计分析与因果推断

学习内容:

适用于AI评估的统计方法：掌握T检验、方差分析（ANOVA）及非参数检验方法。
因果推断进阶：学习工具变量、断点回归在观察性研究中的应用（当RCT不可行时）。
纵向研究分析：如何分析AI在长时间跨度内对人类的累积影响。
处理混杂因素：学习如何识别和统计控制用户背景、任务难度等干扰变量。

学习时间: 4-5周

学习资源:

课程：MIT的“Microeconometrics and Causal Inference”或类似的统计学课程。
书籍：《Causal Inference: What If》by Miguel Hernán and James Robins（可在线免费阅读）。
软件：学习使用R或Python进行统计分析，重点掌握Statsmodels或CausalML库。

学习建议: 理论学习必须结合代码实践。使用公开数据集（如TREC或人类-AI协作数据集）进行清洗和分析，练习计算效应量和置信区间，而不仅仅是P值。

阶段 4：前沿AI评估的实践解决方案

学习内容:

具体解决方案的落地：针对阶段2中的挑战，学习论文中提出的实用解决方案，例如预注册、盲测设计、标准化评估协议。
自动化与可扩展性：研究如何利用AI模型辅助评估人类表现（如LLM作为裁判），以及其中的循环验证问题。
跨领域评估指标：学习在医疗、法律、教育等高风险领域如何定制Uplift指标。
负面效应检测：设计实验以检测AI过度依赖、技能退化等“反向提升”现象。

学习时间: 3-4周

学习资源:

核心文献：精读 RCTs & Human Uplift Studies 论文的“Practical Solutions”及案例研究部分。
行业报告：阅读OpenAI、Anthropic等机构的模型系统卡，了解他们如何处理红队测试和安全评估。
社区：关注Distill.pub或arXiv上的相关讨论。

学习建议: 选择一个具体的场景（例如“AI辅助编程”或“AI辅助写作”），尝试编写一份完整的实验协议草案，包含招募计划、伦理声明和统计分析计划。

阶段 5：精通与独立研究

学习内容:

综合评估体系构建：学习如何组合定量（RCT数据）与定性（访谈、反馈）方法，构建多维度的AI评估体系。
长期影响追踪：研究如何设计面板数据研究以观察AI

常见问题

为什么在评估前沿人工智能（AI）时，传统的随机对照试验（RCT）面临挑战？

传统的随机对照试验在评估前沿 AI 时面临多重挑战。首先是样本量与统计功效的问题，前沿 AI 模型（如大型语言模型）的效果提升往往是渐进的，要检测出这种微小的“人类提升效应”，通常需要极其庞大的样本规模，这在实际操作中成本极高且难以组织。其次是对照组的设置，在 AI 评估中，很难找到一个公正且具有代表性的基准（例如，是让人类不使用任何工具，还是使用旧版 AI 作为对照？）。此外，霍桑效应也很显著，即参与者因知道自己正在被测试而改变行为，导致数据无法反映真实使用场景。

什么是“人类提升研究”，它与普通的 AI 性能测试有何不同？

“人类提升研究”关注的核心不是 AI 模型本身的独立能力（如它能否通过考试），而是当人类与该 AI 协作时，人类能力的提升程度。普通的 AI 性能测试通常将模型视为一个独立的智能体进行评分；而人类提升研究则是将“人类 + AI”视为一个新的系统，衡量这个混合系统在完成任务的质量、速度或创新性上是否优于单独的人类或单独的 AI。这种研究方法更符合实际应用场景，因为 AI 在现实中主要是作为辅助工具存在的。

在进行此类研究时，如何解决“评估标准主观化”的方法论难题？

由于许多前沿 AI 的任务（如写作、编程或策略规划）没有客观的标准答案，评估往往依赖于人类评审，这引入了主观偏差。为了解决这个问题，论文建议采用盲评和模型评审相结合的方案。盲评要求评审者不知道样本是由人类、AI 还是人机协作生成的。同时，可以利用更强的 AI 模型作为辅助裁判来处理大量数据，但需要通过“ adjudication”（裁决）机制，即当 AI 评审与人类评审意见不一致时，引入人类专家进行最终判定，以确保评估的准确性和一致性。

论文中提到的“污染”问题是指什么，如何缓解？

“污染”是指评估数据集中的内容已经包含在 AI 模型的训练集中。如果测试题目或任务在模型训练期间就已经“见过”，那么测试结果反映的是模型的记忆能力而非泛化或辅助能力。针对这一问题，解决方案包括：使用后验数据，即选择在模型训练截止日期之后生成的数据；或者进行污染检测，通过统计模型输出的困惑度来判断模型是否对特定题目有异常的熟悉感，从而剔除受污染的样本。

在实际操作层面，如何降低 RCTs 的实施成本并提高可行性？

为了降低成本，研究者可以采用异步实验设计，允许参与者在自己的时间内完成任务，而不是必须同时在线。此外，利用预筛选和预注册机制，提前明确实验假设和成功指标，可以避免因实验设计不当导致的资源浪费。另一个策略是采用代理指标，在初步筛选阶段使用较小规模的样本或自动化指标进行快速验证，只有在确认有潜在效应时，才投入资源进行大规模的人类对照实验。

前沿 AI 的快速迭代如何影响长期 RCTs 的有效性？

前沿 AI 的更新速度极快，往往导致一个为期 6 个月甚至 1 年的 RCT 研究结束时，所测试的模型版本已经过时。这使得研究结果的现实意义大打折扣。作为解决方案，论文建议采用更短的反馈循环和敏捷评估方法，将大型 RCT 拆解为一系列连续的小型实验。同时，研究应更多地关注通用方法论和相对提升，而不是针对特定模型版本的绝对性能评分，从而使研究结果在模型迭代后依然具有参考价值。

论文对于“负面提升”或技能退化有何警示？

论文指出，仅仅测量正面提升是不够的，必须同时关注依赖性风险和技能退化。如果人类过度依赖 AI，可能在脱离 AI 时表现得更差，或者丧失批判性思维能力。因此，在方法论上，建议增加**“迁移测试”**环节，即在人机协作任务之后，让参与者单独完成类似任务，以评估 AI 辅助是否对人类自身的能力产生了长期的正面或负面影响。

引用

ArXiv: http://arxiv.org/abs/2603.11001v1
PDF: https://arxiv.org/pdf/2603.11001v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 数据
标签： AI评估 / RCT / 因果推断 / 人类提升 / 前沿AI / 随机对照试验 / 方法论 / 模型评测
场景： AI/ML项目

前沿AI评估：RCT与人类提升研究的方法挑战与解决方案