辅助RAG系统新闻可信度评估自动化资源

基本信息

ArXiv ID: 2602.24277v1
分类: cs.IR
作者: Dake Zhang, Mark D. Smucker, Charles L. A. Clarke
PDF: https://arxiv.org/pdf/2602.24277v1.pdf
链接: http://arxiv.org/abs/2602.24277v1

导语

针对读者难以甄别网络新闻可信度的现实问题，TREC 2025 DRAGUN Track 致力于构建辅助型检索增强生成（RAG）系统的评测体系。本文作为组织方报告，详细介绍了为支持此类系统自动化评估所构建的新资源，旨在为研究者提供标准化的评测基准。鉴于摘要未详述具体技术指标，其资源在多大程度上能直接提升系统的鉴别效能尚无法从摘要确认，但该工作无疑为后续探索辅助可信度评估提供了重要的实验基础。

摘要

以下是关于《辅助RAG系统自动化评估资源》的中文总结：

背景与目标 针对读者难以甄别网络新闻可信度的问题，TREC 2025 DRAGUN Track 致力于开发和评估辅助性检索增强生成（RAG）系统。作为组织者，作者介绍了新开发的资源，旨在支持该赛道任务的复用，促进辅助新闻可信度评估及自动化RAG评估的研究。

任务设置 赛道包含两项任务：

任务一：问题生成——针对新闻生成10个排序后的调查性问题。
任务二（主要任务）：报告生成——基于MS MARCO V2.1分段语料库，生成一篇250字的归因报告。

评估资源构建 为了实现评估的自动化与复用，组织者采取了以下步骤：

人工基准构建：TREC评估员针对30篇新闻文章制定了包含预期简短答案的重要性加权问题列表，作为判断新闻可信度的关键信息标准，并据此对参赛队伍的提交结果进行了人工评判。
自动化评估流程：开发了一个名为AutoJudge的自动化流程，用于评判非原始参赛的运行结果。

效果验证 验证显示，AutoJudge的排序结果与TREC人工评估高度一致。在任务一和任务二中，AutoJudge与人工评估的Kendall’s $\tau$相关系数分别为0.678和0.872。这表明该资源集不仅能有效评估辅助新闻可信度的RAG系统，还能以人工评估为基准，推动自动化RAG评估技术的改进。

深度评论：辅助RAG系统自动化评估资源构建

该论文作为TREC 2025 DRAGUN Track的背景介绍与资源发布论文，核心贡献在于构建了一套针对“辅助新闻可信度评估”的RAG系统自动化评测基准。该研究试图解决大模型时代信息可信度验证的难题，将传统的检索任务与生成式报告相结合，具有显著的场景前瞻性。以下是基于学术与应用视角的深入评价：

1. 研究创新性

论文提出了一种新的“辅助性RAG”评估范式，区别于传统的直接问答或事实核查，系统旨在生成“归因报告”来辅助读者判断。其设计的双任务结构（问题生成+报告生成）基于MS MARCO V2.1分段语料库，最大的创新在于评估对象的转变：从评估系统“能否回答问题”转向评估系统“能否帮助用户做出判断”。这从“替代人类”转向了“增强人类”，符合人机协同的趋势。特别是“问题生成”任务要求输出排序后的10个问题，实际上是在测试系统对“证据缺口”的识别能力，即识别出验证新闻真伪的关键信息，这在现有RAG评估中较为罕见。

2. 理论贡献

该工作为自动化评估辅助RAG系统提供了标准化的资源和任务定义，建立了基于MS MARCO的归因报告生成标准（250字）并定义了评估指标。在理论上，它拓展了RAG系统的评估维度，引入“归因”作为核心指标。传统RAG评估侧重于忠实度或相关性，而该研究强调“归因”，要求生成内容必须有确切的检索片段支持，这对解决大模型“幻觉”问题提供了理论约束。然而，论文似乎主要沿用了TREC经典的池化排序或生成式评估思路，未明确提出新的理论模型来解释“辅助性”的认知机制。

3. 实验验证

实验设计的稳健性取决于TREC参赛系统的数量和多样性。作为一篇赛道概述论文，其本身不包含具体的算法对比实验，而是提供实验平台。这里存在一个关键假设：MS MARCO V2.1语料库包含了验证新闻真伪所需的足够证据。失效条件在于：如果新闻是突发热点或涉及MS MARCO未收录的垂直领域知识，系统将无法生成有效报告。因此，后续研究需计算“证据覆盖率”，即测试集中无法在MS MARCO中找到对应证据的比例。

4. 应用前景

在假新闻泛滥的背景下，该资源具有极高的应用价值，可被集成到新闻聚合平台、浏览器插件或事实核查工具中。然而，任务二要求生成250字的报告，在移动端或快节奏阅读场景下，用户可能缺乏耐心阅读长文。真正的应用可能需要将“归因报告”进一步压缩为“可信度评分”或“高亮摘要”。

5. 可复现性

利用公开的MS MARCO V2.1数据集是极大的加分项，避免了私有数据集的壁垒，复现性评级为高。但潜在风险在于，“归因报告”的质量评估通常依赖人工标注（如NIST评估员），这部分数据的主观性可能影响复现实验的一致性。研究者应提供标注者间一致性系数（如Kappa值）以证明评估标准的客观性。

6. 相关工作对比

与传统的Fact-Checking（如FEVER数据集）相比，该研究不仅关注真假判断，更关注证据的溯源与组织；与通用RAG评估（如RAGAS）相比，它更侧重于生成内容的辅助效用而非单纯的准确性。这种定位使其在可信度评估领域独树一帜，但也面临着如何量化“辅助性”这一主观指标的挑战。

技术分析

基于您提供的论文摘要和标题，以下是对该论文研究内容和贡献的深入分析。

深入分析：辅助RAG系统自动化评估资源在新闻可信度评估中的应用

1. 研究背景与问题

核心问题 本研究致力于解决**“如何自动化且大规模地评估辅助性检索增强生成（RAG）系统”**的问题。具体而言，是在帮助读者甄别网络新闻可信度这一特定场景下，解决传统人工评估成本高昂、难以复现以及现有自动化指标在评估“归因报告”和“调查性问题”时存在偏差的难题。

研究背景与意义 随着生成式AI的普及，用户越来越依赖AI来辅助信息消费。然而，网络环境中的虚假新闻和低质量内容泛滥，普通读者缺乏足够的背景知识和时间去核实新闻的可信度。

RAG的机遇与挑战： RAG技术能够通过检索外部证据来辅助生成，理论上非常适合用于新闻核查。然而，RAG系统是一个复杂的黑盒，包含检索、排序、生成和归因等多个环节。
评估的瓶颈： 传统的RAG评估多依赖人工打分（如回答的有用性、事实准确性），这在TREC（文本检索会议）等顶级评测中是标准流程，但对于开发人员迭代系统来说，反馈周期太长、成本太高。因此，建立一套能够模拟人工评判、可自动化运行的基准资源显得尤为迫切。

现有方法的局限性

通用评估指标失效： 传统的NLP指标（如BLEU, ROUGE）基于n-gram重叠，无法衡量生成内容的“事实准确性”或“逻辑推理能力”。
基于LLM的评估的不稳定性： 虽然GPT-4等模型可以用来打分，但在处理长文本归因报告和特定领域的核查逻辑时，往往缺乏明确的评判标准和基准，导致评分波动大。
缺乏针对“辅助性”任务的资源： 现有的数据集多侧重于直接问答，而非“辅助读者判断”，这意味着系统不仅要提供答案，还要提供证据链（归因），这增加了评估的维度。

重要性 该研究不仅为TREC 2025 DRAGUN赛道提供了基础设施，更重要的是，它探索了**“以问题为中心”的评估范式**。通过生成关键问题来检验报告的覆盖度，为自动化评估RAG系统的忠实度和覆盖率提供了新的理论路径。

2. 核心方法与创新

核心方法：AutoJudge 自动化评估流程 论文提出了一套完整的评估资源构建流程，核心是开发了一个名为 AutoJudge 的自动化工具。其方法论包含三个关键步骤：

人工基准构建：
- 针对特定的新闻文章，人工评估员制定了一套“重要性加权的问题列表”。
- 这些问题代表了判断该新闻可信度所需的关键信息点。
- 人工不仅生成问题，还给出了预期的“简短答案”。
- 基于此，对参赛队伍提交的RAG生成报告进行了人工评判，建立了Ground Truth。
自动化评判机制：
- AutoJudge 利用构建好的问题集和标准答案，自动检测RAG系统生成的报告中是否回答了这些关键问题。
- 它通过比对报告内容与标准答案（可能利用语义匹配或精确匹配），计算出一个覆盖率和准确率得分。
一致性验证：
- 将AutoJudge的评分结果与TREC的人工评分进行相关性分析（如Kendall’s $\tau$），以证明自动化评估的有效性。

技术创新点与贡献

任务设计的创新（双任务机制）： 将辅助评估拆解为“问题生成”和“报告生成”两个子任务。这种拆解使得评估更加细粒度——可以通过检查报告是否回答了关键问题来评判质量。
归因报告的标准化： 规定了基于MS MARCO V2.1语料库生成250字的归因报告。这种长度限制和强制归因要求，迫使RAG系统必须在有限的篇幅内综合信息，增加了评估的难度但也提高了实用性。
可复用的评估资源： 论文最大的贡献在于发布了这套包含新闻、人工问题、标准答案和人工评分的数据集，为社区提供了一个标准化的“标尺”。

方法的优势

高效性： 一旦AutoJudge建立，评估新系统的成本接近于零，极大地加速了开发迭代。
客观性： 基于预设问题和答案的评估比纯粹依赖LLM的主观打分更具可解释性。
高相关性： 实验结果显示出极高的人工相关性（$\tau > 0.8$），证明了该方法在统计上与人类直觉高度一致。

3. 理论基础

理论假设：信息覆盖度即质量 本研究的理论基础建立在这样一个假设之上：一篇高质量的辅助新闻可信度报告，必须能够回答读者为了核实该新闻所提出的关键问题。

这将“新闻可信度”这个抽象的概念，具体化为“对关键核查问题的回答质量”。
这也隐含了RAG系统的归因假设：如果RAG系统能够正确检索并整合相关信息，它就应该能覆盖这些人工定义的关键问题。

评估模型：基于排序的一致性 论文使用Kendall’s $\tau$相关系数作为核心验证指标。

理论依据： 在信息检索（IR）中，评估系统的核心往往不是绝对分数，而是排序的正确性。如果AutoJudge能给“好”的系统打出更高的分数，并给“坏”的系统打出更低的分数，且排序顺序与人类评估员一致，那么该自动化系统就是有效的。
这是一种行为主义的评估视角，不追求完美理解语义，只追求评估结果的排序一致性。

数学/算法设计 虽然摘要未详述算法细节，但AutoJudge的实现逻辑可能涉及：

二元分类或语义相似度计算： 判断报告中的句子是否包含针对特定问题的答案。
加权求和： 根据问题的重要性权重计算最终得分。

7. 学习建议

适合读者背景

信息检索（IR）研究者： 关注TREC赛道和评估指标（Kendall’s $\tau$）。
NLP/RAG工程师： 关注如何构建自动化测试集。
计算新闻学学者： 关注AI在打击虚假新闻中的应用。

前置知识

检索增强生成（RAG）的基本原理。
信息检索评估指标： 理解Precision, Recall, nDCG, Kendall’s $\tau$等概念。
LLM提示工程： 了解如何设计Prompt来生成问题和评判答案。

阅读顺序

先阅读TREC 2025 DRAGUN Track的官方任务说明书（Task Description），了解任务全貌。
阅读本文，理解评估资源的构建方法。
查阅相关论文中关于“LLM-as-a-Judge”的文献，对比AutoJudge与通用LLM评判器的区别。

研究最佳实践

实践 1：构建多维度的自动化评估基准数据集

说明: 为了有效评估辅助性 RAG 系统在新闻可信度评估中的表现，必须建立一个包含多种新闻类型（如真实新闻、虚假新闻、讽刺新闻、误导性标题）的基准数据集。该数据集应涵盖不同的主题领域，并包含对应的事实核查解释和来源引用，以测试系统处理复杂语境和细微差别的能力。

实施步骤:

收集具有代表性的新闻样本，确保样本在政治倾向、主题和可信度等级上的多样性。
为每个样本标注“基准解释”，即人类专家对新闻为何可信或不可信的详细分析。
划分数据集为开发集和测试集，确保两者在数据分布上无重叠。

注意事项: 避免数据泄露，确保测试集中的新闻在模型训练阶段未被使用。数据集应定期更新以反映当前的新闻事件和虚假信息策略。

实践 2：采用混合评估指标体系

说明: 单一的自动化指标（如 ROUGE 或 BLEU）难以全面衡量“帮助用户评估”这一任务的质量。最佳实践是结合内容忠实度、事实准确性和推理质量三个维度的指标。内容忠实度衡量生成的解释是否基于检索到的上下文，而非模型幻觉；事实准确性衡量解释中的陈述是否符合客观事实。

实施步骤:

利用自然语言推理（NLI）模型自动检测生成内容与检索上下文之间的矛盾或蕴含关系。
引入基于大语言模型（LLM）的评判者，对生成的解释进行打分，重点关注逻辑连贯性和证据引用的准确性。
计算传统指标（如 F1-score）以评估系统对新闻真假的分类性能。

注意事项: LLM 评判者本身可能存在偏见，建议使用多个不同的强力模型进行投票或综合评估，并定期与人工评估进行校准。

实践 3：实施严格的检索质量评估

说明: 在 RAG 系统中，检索模块是基础。如果检索到的证据不可靠或不相关，生成模块无法提供可信的辅助。必须单独评估检索组件在新闻验证场景下的有效性，确保其能找到确证或反驳新闻内容的高质量来源。

实施步骤:

定义检索成功率指标，计算检索结果中是否包含能够直接验证新闻主张的证据文档。
评估检索结果的上下文相关性，排除虽然关键词匹配但内容无关的文档。
测试系统对多跳问题的处理能力，即验证一条新闻是否需要综合多个来源的信息。

注意事项: 新闻验证往往需要对比多方信源，评估时应特别关注系统是否能够检索到观点不同或相互冲突的来源，以辅助用户进行综合判断。

实践 4：建立自动化幻觉检测机制

说明: 辅助性系统最严重的风险是生成看似合理但完全错误的信息（幻觉）。在新闻可信度评估的背景下，幻觉会直接误导读者。因此，必须在评估流程中建立专门的自动化机制来检测和量化幻觉率。

实施步骤:

实施基于引用的验证，检查生成的每一句话是否都能在检索到的上下文中找到对应的依据。
计算幻觉率，即生成内容中无法被检索上下文支持的字数或句子比例。
使用问答一致性检查，通过自动提问生成内容中的细节，验证其是否自相矛盾。

注意事项: 区分“合理的推论”与“幻觉”。系统应被允许进行基于常识的逻辑推论，但必须严格限制对具体事实细节的编造。

实践 5：关注用户辅助性与可解释性

说明: 系统的最终目标是“帮助读者”，而不仅仅是给出一个真假判断。评估指标应包含对生成内容可读性、中立性以及对用户决策辅助效果的测量。生成的内容应清晰地展示推理过程，帮助用户理解结论是如何得出的。

实施步骤:

设计自动化指标来评估文本的可读性（如阅读难度等级）和语气中立性（避免过于情绪化的表达）。
评估系统是否明确区分了“客观事实”与“观点/分析”。
测试系统是否提供了清晰的来源链接或引用路径，以便用户进行人工核实。

注意事项: 避免生成过于技术化或冗长的解释。自动化评估应惩罚那些虽然准确但难以被普通大众理解的内容。

实践 6：引入对抗性测试

说明: 为了确保系统的鲁棒性，不能仅测试标准样本。需要构建对抗性样本集，包含经过精心设计的提示词攻击、格式干扰或逻辑陷阱的新闻，以测试系统是否容易被欺骗或产生误导性输出。

实施步骤:

生成包含拼写错误、语法错误或非标准格式的新闻输入，评估系统的鲁棒性。
测试系统对“越狱”尝试的抵抗力，例如用户试图诱导系统支持某种特定的政治偏见。
评估系统在面对完全虚构的“无中生有”类新闻时的表现，检查其是否能正确识别为无法验证而非盲目置信。

学习要点

该研究提出了一个全面的自动化评估框架，专门用于衡量辅助性RAG系统在帮助用户评估新闻可信度方面的表现，填补了该领域缺乏标准化测试基准的空白。
研究团队构建并开源了大规模的基准数据集，其中包含需要多步推理和外部证据验证的复杂新闻样本，为训练和测试高阶RAG系统提供了关键资源。
提出了一套细粒度的自动化评估指标，不仅评估检索事实的准确性，还重点量化了系统对用户判断新闻可信度的实际辅助效果和可解释性。
引入了“反事实”和“干扰”测试用例，通过构建高难度的对抗性样本，严格测试系统在面对误导性信息或证据冲突时的鲁棒性和推理能力。
研究强调了在评估过程中结合“端到端任务表现”与“中间过程质量”（如检索准确率、推理链完整性）的重要性，以确保系统优化的全面性。
提供了可复用的实验脚本和评估管线，显著降低了研究人员和开发者构建及验证新闻可信度辅助工具的技术门槛。
通过实证分析指出，单纯提升检索模块的准确率并不总是能转化为用户可信度评估能力的提升，强调了系统生成内容与用户决策之间协同优化的必要性。

学习路径

阶段 1：基础理论与技术铺垫

学习内容:

RAG (检索增强生成) 基础原理: 理解检索器与生成器的协同工作机制，以及如何利用外部知识库增强大语言模型的准确性。
新闻可信度评估指标: 学习新闻学中判断新闻可信度的核心维度，包括来源权威性、内容客观性、证据支持度及偏见检测。
辅助阅读系统概念: 了解人机交互（HCI）在阅读辅助中的应用，特别是如何通过系统设计帮助用户识别虚假信息。

学习时间: 2-3周

学习资源:

论文: “Retrieval-Augmented Generation for Large Language Models: A Survey” (arXiv综述)
报告: First Draft News 或 Google News Initiative 关于信息验证的指南
课程: 斯坦福大学 CS224N (NLP with Deep Learning) 中关于检索模型的相关章节

学习建议: 在此阶段，重点在于理解“为什么需要RAG来辅助新闻验证”。建议阅读相关综述类论文，并尝试使用现有的开源RAG框架（如LangChain或LlamaIndex）搭建一个简单的问答Demo，体验其局限性。

阶段 2：自动化评估方法论

学习内容:

RAG系统的评估框架: 深入学习RAG系统的三大评估指标：检索质量、生成质量和端到端性能。
自动化评估指标: 掌握基于LLM的评估方法，如使用GPT-4作为裁判进行打分，以及传统的NLP指标（BLEU, ROUGE, BERTScore）在事实核查中的应用。
数据集构建: 了解如何构建用于评估新闻可信度系统的测试集，包括对抗性样本的生成和标注一致性分析。

学习时间: 3-4周

学习资源:

论文: “Evaluating Large Language Models: A Comprehensive Survey” (arXiv)
工具框架: RAGAS (Retrieval Augmented Generation Assessment) 框架文档及GitHub库
工具框架: TruLens (TruEra) 用于评估LLM应用的追踪和评估工具
数据集: LIAR dataset (虚假新闻数据集) 或 FactScore 相关论文

学习建议: 动手实践是关键。下载一个开源的RAG评估工具（如RAGAS），准备一个小型的新闻语料库，运行评估流程，观察不同指标对系统性能的反馈，并思考哪些指标最能反映“可信度”。

阶段 3：系统实现与算法优化

学习内容:

高级检索策略: 学习混合检索、重排序和查询重写技术，以提高检索新闻证据的准确性。
论点挖掘与验证: 探索如何利用NLP技术提取新闻中的核心论点，并利用检索到的证据进行自动化的逻辑一致性验证。
可解释性界面设计: 研究如何将RAG的检索过程（如引用来源、高亮证据）可视化，以辅助读者进行信任判断。

学习时间: 4-6周

学习资源:

论文: 查找关于 “Explainable AI in Journalism” 或 “Automated Fact-checking” 的最新顶会论文 (ACL, EMNLP, CHI)
技术博客: Cohere Rerank API 文档或相关混合检索技术文章
项目: 侧重大模型幻觉检测的开源项目

学习建议: 尝试改进阶段2搭建的Demo。引入重排序模型优化检索结果，并设计一个简单的输出格式，不仅给出答案，还要展示“证据来源”和“置信度评分”，模拟辅助新闻阅读的场景。

阶段 4：前沿研究与特定场景应用

学习内容:

针对新闻的微调与对齐: 研究如何针对新闻领域微调大模型，使其输出更符合新闻伦理和事实核查标准。
多模态新闻评估: 扩展视野，学习如何处理包含图片和视频的新闻内容的真实性评估。
自动化评估的局限性: 批判性分析当前自动化评估方法的偏差，以及“评估者”模型本身可能存在的幻觉问题。

学习时间: 持续学习

学习资源:

论文: arXiv上关于 “Helping Readers with News Trustworthiness” 的最新相关论文
会议: 关注 ACL, RecSys, CHI 等会议中关于推荐系统和可信AI的Track
社区: Hugging Face Forums, Reddit r/MachineLearning

学习建议: 此时你应具备复现甚至改进前沿论文的能力。建议选择一篇与该主题高度相关的最新论文（如目标来源提到的具体论文），尝试复现其实验结果，或者思考如何将其评估方法应用到实际的新闻产品场景中。

常见问题

什么是辅助性 RAG 系统，它在新闻可信度评估中起什么作用？

辅助性检索增强生成系统是一种结合了信息检索技术和生成式人工智能的工具。在新闻可信度评估的背景下，这类系统旨在帮助读者验证新闻的真实性、识别潜在的偏见或错误信息。系统通过检索相关的知识库、可信来源或事实核查报告，并利用大语言模型生成分析报告，从而辅助用户判断一条新闻是否值得信赖。这篇论文关注的是如何自动化评估这类辅助系统本身的有效性。

为什么需要专门的自动化评估资源来评估这些辅助系统？

评估辅助性 RAG 系统面临独特的挑战，传统的问答或摘要评估指标并不完全适用。首先，新闻可信度评估涉及复杂的推理和多维度的分析（如来源可靠性、逻辑一致性等），很难仅通过简单的文本相似度（如 BLEU 或 ROUGE 分数）来衡量。其次，人工评估成本高昂且难以扩展。因此，该论文提供了专门的自动化评估资源（如数据集、基准测试或评估框架），以标准化、高效地衡量系统在帮助用户辨别新闻真伪时的表现。

该论文中提到的评估资源主要包含哪些内容？

根据论文主题，这些资源通常包含以下几个核心部分：

基准数据集：包含带有真实性标签或可信度标注的新闻样本，以及相关的检索上下文。
评估指标：专门设计的指标，用于量化系统生成的解释或判断是否准确、有帮助且无害。
评估协议：一套标准化的流程，用于测试 RAG 系统在处理虚假信息、误导性标题或低质量内容时的鲁棒性和辅助能力。
自动化评估器：可能包含基于强大型语言模型（如 GPT-4）的评估脚本，用于模拟人类专家的评分过程。

这些自动化评估方法如何判断一个 RAG 系统是否“有用”？

自动化评估通常关注几个关键维度。首先是正确性，即系统提供的信息是否与客观事实或专家共识一致。其次是证据支持，系统生成的建议是否有确凿的检索证据支持。最后是辅助效果，即系统生成的回答是否能真正帮助读者做出正确的判断，而不是误导读者。论文中可能采用了“基于模型的评估”，利用先进的 LLM 作为裁判，根据上述维度对被测系统的输出进行打分或排名。

使用这些资源进行评估有哪些局限性？

尽管自动化评估效率高，但仍存在局限性。首先，幻觉问题，即作为裁判的 LLM 本身可能产生错误，导致评估结果不准确。其次，新闻可信度往往带有主观性或依赖于深层的背景知识，自动化模型可能无法完全捕捉到人类专家的所有细微判断。此外，RAG 系统对检索来源的依赖性很强，如果检索到的文档本身存在偏见，评估结果可能会受到影响。因此，论文通常建议将自动化评估与有限的人工抽样相结合。

该研究对未来的新闻事实核查工具有何启示？

这项研究强调了在开发新闻核查工具时，必须将“系统评估”作为核心环节。它为开发者提供了一套标准，以确保他们的 RAG 系统不仅能检索信息，还能以可解释、可信的方式呈现给用户。未来的工具可以基于这些资源进行迭代优化，例如提高对复杂谣言的识别能力，或者优化生成内容使其更易于普通读者理解，从而在对抗错误信息的斗争中发挥更大作用。

引用

ArXiv: http://arxiv.org/abs/2602.24277v1
PDF: https://arxiv.org/pdf/2602.24277v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 数据
标签： RAG / TREC / 新闻可信度 / 自动评估 / DRAGUN / 检索增强生成 / CSIR / 数据集
场景： RAG应用

辅助RAG系统新闻可信度评估自动化资源