利用LLM参数化知识实现无检索的事实核查

基本信息

ArXiv ID: 2603.05471v1
分类: cs.CL
作者: Artem Vazhentsev, Maria Marina, Daniil Moskovskiy, Sergey Pletenev, Mikhail Seleznyov
PDF: https://arxiv.org/pdf/2603.05471v1.pdf
链接: http://arxiv.org/abs/2603.05471v1

导语

针对现有事实核查严重依赖外部检索而忽视模型内在知识的局限，本文提出了“无检索事实核查”新任务，旨在直接利用大模型的参数化知识验证陈述真实性。通过构建涵盖长尾知识与多语言能力的评估框架，作者发现基于模型内部表示的方法优于传统对数方法，并据此提出了性能更优的 INTRA 方法。该工作为提升模型可信度提供了新路径，但其具体在何种复杂度下能完全替代检索机制，尚无法从摘要确认。

摘要

标题：利用大模型内部知识进行无检索事实核查

核心问题 当前基于大语言模型（LLM）的人工智能系统在可信度方面面临挑战。为了验证事实性，主流方法通常依赖外部知识检索和证据比对。然而，这种方法受到检索错误和数据可用性的限制，且未能充分利用模型内在的参数化知识。

提出方案 本文提出了一种**“无检索事实核查”**（Fact-checking without retrieval）的新任务，旨在不依赖外部检索的情况下，直接利用模型内部的参数化知识来验证任意自然语言陈述的真实性。为了全面评估这一设定，作者建立了一个关注泛化能力的评估框架，测试维度涵盖：长尾知识、多样化的陈述来源、多语言能力以及长文本生成。

实验发现与INTRA方法 通过对9个数据集、18种方法和3个模型的实验，研究发现：基于对数的传统方法往往表现不佳，而利用模型内部表示（Internal Representations）的方法效果更好。基于此，作者提出了INTRA方法。该方法通过利用内部表示之间的交互关系，在各项指标上达到了最先进的性能（SOTA），并展现出强大的泛化能力。

意义这项工作确立了“无检索事实核查”为一个极具前景的研究方向。它不仅能作为检索式框架的有效补充，提升系统的可扩展性，还可作为训练过程中的奖励信号或直接集成到生成过程中，从而增强AI系统的可信度。

以下是对论文《Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval》的深入学术评价。该文试图挑战当前事实核查领域“检索增强（RAG）”的主流范式，转而探索大模型（LLM）内部参数化记忆的极限。

1. 研究创新性

论文声称：现有检索式方法受限于检索错误和网络数据可用性，且未充分利用模型内在知识。本文提出了“无检索事实核查”新任务，旨在仅利用模型参数化知识验证陈述。
证据：作者构建了一个关注泛化能力的评估框架，特别针对长尾知识和多样化来源进行测试，试图证明模型在未依赖外部工具时仍具备一定的事实判断力。
学术评价：该研究在任务定义上具有显著的逆向思维创新性。当前学术界普遍认为LLM存在“幻觉”且知识滞后，因此主流方向是RAG。该文反其道而行，试图挖掘LLM作为“压缩知识库”的潜力，探索了模型在封闭系统下的事实性边界。这为理解LLM的内部表征提供了一个独特的视角，即模型不仅是推理引擎，本身也是一个带有噪声的知识库。

2. 理论贡献

论文声称：通过直接利用参数化知识，可以绕过检索阶段的噪声和错误，实现更纯粹的事实验证。
推断：这一假设隐含了一个理论前提：LLM在预训练阶段不仅学习了语言的统计规律，还以某种确定性形式“存储”了世界知识，且这种知识的提取可以通过Prompt Engineering或微调被稳定激活。
学术评价：本文的理论贡献在于挑战了“检索至上”的教条。它暗示了对于高频或常识性知识，LLM的内部参数可能比检索到的低质量网页证据更可靠。然而，其理论短板在于未深入解释“参数化知识”与“幻觉”的界限。从认知科学角度看，这类似于测试人类的“内隐记忆”与“虚假记忆”的边界，但论文缺乏对模型“自信度”与“准确性”非线性关系的理论剖析。

3. 实验验证

关键假设：LLM在无需外部检索的情况下，能够准确区分其训练数据中见过的事实与未见过的或错误的事实。
可能的失效条件：当陈述涉及模型训练截止后的新事件，或涉及训练数据中极为罕见的长尾知识时，模型倾向于产生“幻觉”或随机猜测。
可验证的检验方式：
1. 时间切片实验：将测试集按时间划分为“训练前”和“训练后”，对比模型准确率的崩塌点。
2. 反事实对抗测试：构造逻辑上合理但违背事实的陈述，观察模型是依赖语义合理性（容易误判为真）还是事实记忆进行判断。
3. 概率校准曲线：分析模型输出的概率分布是否真实反映了确信度，还是表现出过度自信。
学术评价：实验的可靠性取决于评估集的构建。如果评估集偏向于维基百科中的高频实体，结果可能虚高。真正的挑战在于处理那些模型“似曾相识但细节错误”的样本。

4. 应用前景

推断：该方法适用于对隐私敏感、网络受限或对延迟要求极高的场景。
学术评价：
- 优势：在离线环境（如内网、边缘设备）中，无检索方法是唯一可行的自动化核查方案。此外，对于验证通用常识或数学公理，调用内部知识比检索更高效。
- 局限：在新闻核查、医疗建议等高风险领域，仅依赖参数化知识是极度危险的。因为模型无法区分“它记得的”和“它编造的”，这违背了事实核查系统可解释性和溯源的核心要求。
- 结论：该方法更适合作为RAG系统的前置过滤器，用于快速过滤明显的常识性错误，而非独立的核查系统。

5. 可复现性

论文声称：建立了关注泛化能力的评估框架。
学术评价：复现该研究的难点在于**“陈述来源”的多样性控制**。如果仅使用Fever等合成数据集，复现难度较低；但若涉及真实的网络谣言，数据标注的主观性会增加复现难度。此外，不同LLM（如Llama-3 vs GPT-4）的参数化记忆分布不同，结论在不同模型间的迁移性存疑。代码和数据集的开源将是决定其学术价值的关键。

6. 相关工作对比

对比维度：
- RAG方法（如Verify-and-Correct）：依赖外部证据，准确率高，但受检索器性能限制，且无法处理文档未记载的知识。
- 微调方法：通过注入知识来增强事实性，但容易导致灾难性遗忘。
优劣分析：本文方法在推理速度和部署成本上优于RAG（无需向量数据库）。但在准确性上限和可解释性上远不如RAG。RAG提供了证据来源，而本文方法仅提供“是/否”的判断，这在实际应用中缺乏说服力。

7. 局限性和未来方向

局限性：
1. 不可修正性：模型的知识是冻结的。如果预训练数据包含错误信息，

技术分析

基于您提供的论文摘要及该领域的专业知识，以下是对这篇论文《Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval》的深入分析。

深入分析：利用大模型内部知识进行无检索事实核查

1. 研究背景与问题

核心问题

该论文致力于解决大语言模型（LLM）在生成内容时的事实一致性与可信度问题。具体而言，作者试图回答一个关键问题：在不依赖外部检索系统的情况下，我们能否仅凭LLM内部存储的参数化知识，有效地验证一个陈述的真假？

背景与意义

目前的LLM虽然具备强大的语言理解和生成能力，但普遍存在“幻觉”问题，即生成看似合理但完全虚假的内容。为了解决这一问题，主流的“检索增强生成”（RAG）框架成为标准范式。然而，RAG模式存在明显的瓶颈：

检索依赖：如果检索系统未找到相关证据，事实核查就无法进行。
长尾知识缺失：对于非主流、冷门或新兴的知识，外部语料库往往覆盖不足。
系统复杂性与延迟：检索组件增加了系统的计算开销和响应延迟。

因此，探索“无检索”路径不仅是对LLM内在能力的极限测试，也是为了构建更轻量、更实时、且不依赖外部数据库的验证系统。这对于离线应用、隐私敏感场景（无法联网查询）或处理长尾知识具有重要的实际意义。

现有方法的局限性

基于提示的方法：直接问模型“这句话是真的吗？”，模型往往会重复其生成时的错误，或者表现出过度自信。
基于概率的方法：传统的利用输出概率的方法，如计算P(True)和P(False)的对数似然比，在复杂的真值判断中往往表现不稳定，容易受到模型偏见的影响。
检索依赖方法：如前所述，受限于检索器的召回率和外部数据的时效性。

2. 核心方法与创新

核心方法：INTRA

论文提出了名为 INTRA（Internal Trajectory Alignment，内部轨迹对齐）的方法。该方法的核心思想是不依赖最终的输出概率，而是深入到模型的内部表示空间。

技术创新点

探测内部状态：INTRA 不是通过模型“说什么”来判断，而是通过观察模型在处理陈述时“内部神经元是如何激活的”来判断。
内部表示交互：该方法利用了模型内部各层表示之间的交互关系。具体来说，它捕捉了陈述的隐含状态与真/假标签的隐含状态之间的几何关系（如余弦相似度或距离）。
无需训练探测器：与许多需要训练额外分类器（Probes）的方法不同，INTRA 更多地利用模型本身在零样本或少样本设置下的内在几何结构，通过对比陈述内部表示与“真/假”概念表示的距离来进行判断。

优势与特色

泛化能力强：由于利用的是深层语义表示，该方法在跨语言、跨领域（长尾知识）以及长文本生成任务中表现出比传统概率方法更好的鲁棒性。
即插即用：作为一种解码无关的方法，它可以直接应用于现有的LLM而无需微调模型权重。

3. 理论基础

理论假设

该方法基于一个核心假设：线性表征假设的变体。即，LLM在其高维隐空间中，将语义信息（包括真假性）进行了结构化的编码。

如果模型“知道”某个事实，那么该陈述的内部向量表示应该与“真”的向量表示在空间上更接近；
如果模型“不知道”或“编造”了某个事实，其表示将偏离“真”的簇，或者更接近“假”的簇。

数学模型设计

虽然摘要未详述公式，但此类方法通常遵循以下逻辑：设 $h_s$ 为陈述 $s$ 在某一层的隐状态，$h_{true}$ 和 $h_{false}$ 为“真”和“假”标签的嵌入（或通过提示词如“Statement is true”获得的隐状态）。判断函数 $f(s)$ 通常基于： $$ f(s) = \text{sim}(h_s, h_{true}) - \text{sim}(h_s, h_{false}) $$ 其中 $\text{sim}$ 可以是余弦相似度。INTRA 的创新在于它可能不仅仅计算静态距离，而是计算了在处理过程中的轨迹对齐或注意力权重分布，捕捉模型在处理真伪陈述时的动态差异。

理论贡献

论文的理论贡献在于证实了LLM的参数化记忆不仅仅是用于生成下一个token，其内部激活模式本身就包含了事实真伪的“元数据”。这为理解LLM的内部认知过程提供了新的视角。

7. 学习建议

适合读者

从事NLP、大模型安全性与对齐研究的研究生和工程师。
对模型内部机理、可解释性（Mechanistic Interpretability）感兴趣的学者。

前置知识

深度学习基础：理解Transformer架构、层表示。
向量空间语义：理解词向量和句子向量的几何意义。
评估指标：熟悉Precision, Recall, F1, AUC等分类指标。

阅读顺序

先阅读摘要和引言，理解“无检索”的动机。
重点阅读 Method 部分，理解 INTRA 如何提取和计算内部表示。
分析实验部分的 Baseline，对比传统概率方法的失败案例。
思考其局限性部分，结合RAG技术进行批判性思考。

研究最佳实践

实践 1：构建高置信度的内部知识验证体系

说明: 大型语言模型（LLM）在预训练过程中存储了海量的参数化知识。研究表明，模型对于其训练数据中高频出现且一致的事实，具有极高的内部置信度。通过精细的Prompt工程，可以引导模型直接访问这些参数化记忆进行事实核查，而无需依赖外部检索系统。这种方法利用了模型自身的“常识”和“知识边界”，对于验证广为人知的事实特别有效。

实施步骤:

设计专门的Prompt模板，要求模型不仅回答问题，还要输出对答案的置信度评分。
引入“自我反思”机制，要求模型列出支持该结论的内部推理依据或来源线索。
对于模型输出置信度极高的事实陈述，直接采纳为验证结果。

注意事项: 此方法仅适用于模型训练截止日期之前的通用知识。对于小众领域或近期发生的事件，模型的内部知识可能存在盲区或幻觉，不应盲目信赖。

实践 2：利用生成与验证的解耦策略

说明: LLM在生成模式和验证模式下的表现往往不同。该实践建议将“生成答案”和“验证事实”分为两个独立的阶段。在验证阶段，通过调整Prompt，强制模型进入“批判者”或“审查者”的角色，利用其参数化知识来检查给定陈述的真实性。这种解耦能有效减少模型在生成过程中为了迎合上下文而产生的幻觉。

实施步骤:

首先生成待验证的内容或陈述。
重置上下文，使用新的Prompt要求模型判断上述陈述是否真实。
在验证Prompt中明确指示：“请仅根据你的内部知识判断以下陈述的真伪，不要进行推测。”

注意事项: 确保验证阶段的Prompt具有足够的约束力，防止模型因为“顺从性”而错误地验证了它之前生成的虚假信息。

实践 3：实施多路径一致性校验

说明: 单一的输出可能存在随机性误差。通过利用LLM的参数化知识进行多次采样或采用多角度的提问方式，比较模型在不同路径下的回答一致性。如果模型在多次不同的提问中均能保持事实的一致性，则该事实具有较高的可信度。这实际上是在利用模型自身的概率分布来确认事实的稳固程度。

实施步骤:

对同一事实构造多种不同的问法。
要求模型以不同的随机种子多次回答验证问题。
汇总结果，如果绝大多数回答都指向同一个事实，则判定为真；如果答案发散或矛盾，则判定为存疑。

注意事项: 此方法会增加推理成本和延迟，建议仅应用于关键事实的核验，而非全量文本。

实践 4：利用“不确定性”作为幻觉检测指标

说明: 当模型缺乏某方面的参数化知识时，其输出的概率分布通常会比较平坦或表现出明显的不确定性。最佳实践包括开发一套机制，用于捕捉模型在回答验证问题时的犹豫迹象（如输出模棱两可的词汇、逻辑自相矛盾或拒绝回答）。识别这种“不知道”的状态，比强行让模型编造事实更为重要。

实施步骤:

在Prompt中明确允许模型回答“不知道”或“无法确认”。
分析模型输出的Token概率（如果API支持）或文本中的不确定性措辞。
将表现出高不确定性的验证请求标记为“需要外部检索”，从而实现与检索增强生成（RAG）系统的互补。

注意事项: 部分模型倾向于过度自信，即使不知道也会编造答案。因此，必须结合严格的Prompt约束来抑制这种倾向。

实践 5：针对事实性进行指令微调

说明: 通用的LLM可能更倾向于完成对话而非严谨的事实核查。为了更好地利用参数化知识进行事实检查，建议对基础模型进行针对性的指令微调。通过构建包含“陈述-验证-真伪”三元组的训练数据集，教会模型如何正确调用其内部记忆来判断事实，而不是仅仅生成续写文本。

实施步骤:

收集大量包含真假陈述的数据集（涵盖常识、历史、科学等领域）。
构建训练样本，输入为陈述，输出为验证理由和二分类结果（真/假）。
使用该数据集对模型进行LoRA或全量微调，使其适应“验证者”的角色。

注意事项: 微调数据必须保持高质量和多样性，避免引入偏见或错误的事实标签，否则会破坏模型原有的参数化知识结构。

实践 6：建立基于知识截止日期的验证边界

说明: 利用参数化知识进行事实核查的一个核心限制是模型的知识时效性。最佳实践要求在系统层面建立一个明确的“验证边界”。对于发生在模型训练截止日期之后的事件，必须强制切换到“检索模式”或直接拒绝验证，绝不能试图利用参数化知识去“猜测”近期新闻。

实施步骤:

确认所使用的LLM的具体知识截止日期。
在验证流程中增加时间戳检测模块

学习要点

大型语言模型（LLM）内部蕴含的海量参数化知识足以支持高精度的自动事实核查，无需依赖外部检索系统。
提出了一种基于提示词工程的“生成-验证”两阶段框架，通过生成解释性证据来验证事实陈述，显著提升了零样本场景下的性能。
该方法在无需任何特定任务训练数据的情况下，在多个权威基准数据集上取得了与现有微调模型相当甚至更优的准确率。
研究表明，LLM 生成推理过程（Chain-of-Thought）比直接输出判断结果能更有效地激发模型利用内部知识进行事实校验。
该框架有效解决了传统检索依赖型方法面临的检索延迟、检索噪声以及外部知识库更新滞后等问题。
通过分析模型在不同领域（如政治、科学）的表现，证实了参数化知识在处理长尾或特定领域事实时的鲁棒性。
这一发现为构建低成本、低延迟且易于部署的下一代实时事实核查系统提供了新的技术路径。

学习路径

阶段 1：基础理论与背景认知

学习内容:

大语言模型（LLM）的基本原理，包括Transformer架构、预训练与微调机制
LLM参数化知识的概念：理解模型如何通过训练数据将事实存储在权重中
事实核查的传统定义与流程，以及基于检索的方法（如RAG）与无检索方法的区别
论文摘要与引言部分的精读，理解作者试图解决的核心问题（幻觉问题）及为何选择不使用外部检索

学习时间: 2-3周

学习资源:

Andrej Karpathy的《Neural Networks: Zero to Hero》系列视频
Jay Alammar的博客文章《The Illustrated Transformer》
论文原文：《Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval》

学习建议: 在阅读论文前，确保对Transformer的注意力机制有直观理解。重点思考为什么在某些场景下不依赖外部知识库（如搜索引擎）而是直接利用模型内部知识进行核查是必要的（例如隐私保护、低延迟需求）。

阶段 2：核心机制与提示工程

学习内容:

深入研究论文提出的方法论，如何通过提示工程激发模型内部的参数化知识
生成式验证与判别式验证的区别
链式思维在事实核查中的应用，如何让模型“解释”其判断依据
分析论文中用于评估的数据集（如FEVER, CLIcKE等）及评估指标

学习时间: 3-4周

学习资源:

OpenAI官方文档中的Prompt Engineering指南
相关论文：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
Hugging Face NLP Course（关于模型评估部分）

学习建议: 动手复现论文中的Prompt模板。尝试使用不同的LLM（如GPT-4, Llama 3, Claude）运行这些Prompt，观察不同模型在利用内部知识进行事实核查时的表现差异。重点关注模型如何处理“不知道”的信息，即何时拒绝回答。

阶段 3：实验复现与对比分析

学习内容:

搭建实验环境，使用开源模型（如Llama或Mistral）复现论文中的基础实验
对比实验：设置对照组，比较“无检索（纯参数化）”与“有检索（RAG）”在准确率、召回率及延迟上的差异
分析参数化知识的局限性，特别是知识截止日期和训练数据偏差对核查结果的影响
学习如何构建自动评估管线来验证事实核查的准确性

学习时间: 4-6周

学习资源:

LangChain或LlamaIndex官方文档（用于构建实验管线）
GitHub上相关开源项目（搜索关键词：LLM Fact Checking, Zero-shot Fact Verification）
论文原文的实验部分及附录

学习建议: 不要只跑通代码，要记录失败案例。重点分析模型在哪些类型的事实上容易出错（例如数字、冷门知识或近期发生的事件）。尝试设计一种混合策略，探讨何时该信任参数化知识，何时必须触发检索。

阶段 4：高级优化与前沿探索

学习内容:

探索如何通过微调强化模型在特定领域的参数化事实核查能力
研究不确定性量化，让模型能对自己内部知识的准确性进行评分
了解最新的自我修正与反思机制，如何让模型在发现内部知识冲突时进行自我校验
探索多模态事实核查的可能性（从文本扩展到图片/视频）

学习时间: 持续学习

学习资源:

arXiv上关于LLM Uncertainty和Self-Correction的最新论文
PEFT（Parameter-Efficient Fine-Tuning）库文档
学术会议动态（ACL, EMNLP, NAACL）

学习建议: 这是一个快速发展的领域。建议关注该领域核心作者（如论文作者团队）的最新发表。尝试将该方法应用到具体的垂直领域（如医疗或法律），因为在这些领域，利用经过严格训练的参数化知识往往比开放网络检索更可靠。

常见问题

这篇论文的核心观点是什么？在没有外部检索的情况下，LLM 真的能进行事实核查吗？

这篇论文的核心观点在于探索大语言模型（LLM）内部存储的“参数化知识”在事实核查任务中的潜力。通常人们认为事实核查必须依赖外部知识库或检索工具（如 RAG），因为模型的知识是静态的且可能存在幻觉。然而，该研究表明，对于许多常见的事实性陈述，LLM 在其预训练阶段已经“记住”了大量的世界知识。

论文提出的方法是，通过精心设计的提示工程，直接利用模型内部的概率分布来判断一个陈述的真假。例如，通过让模型生成陈述的补全内容、分析其蕴含关系，或者直接输出真伪概率，模型可以在不进行任何外部检索的情况下，仅凭其参数化记忆完成核查。这种方法在处理训练数据中已包含的事实时表现出了惊人的准确性，提供了一种比传统检索系统更轻量、更快速的替代方案。

如果不使用检索，这种方法如何解决 LLM 的“幻觉”问题或知识过时的问题？

这是一个非常关键的问题。论文承认，仅依赖参数化知识确实存在局限性，特别是当模型的知识截止日期早于事件发生时间，或者模型在预训练时接触到了错误信息时，可能会产生“幻觉”或给出错误的判断。

为了缓解这一问题，论文通常采用以下几种策略：

置信度评估：不仅仅是输出“真”或“假”，而是分析模型输出的概率分布。如果模型对某个事实的内部表征非常模糊或概率分布分散，系统可以将其标记为“不确定”，从而提示用户需要进一步核实，而不是强行给出错误答案。
一致性检查：通过不同的提示方式询问模型同一个事实，检查模型回答的一致性。如果模型在不同角度的提问下给出矛盾的答案，说明其参数化记忆中存在冲突，此时不应完全信任其判断。
承认边界：论文通常强调这种方法适用于“通用知识”或“既定事实”的核查。对于非常新的、小众的或高度专业的领域知识，纯参数化方法确实不如检索方法可靠，因此该方法更适合作为辅助手段或快速筛查工具。

与基于检索的事实核查方法相比，这种无检索方法的主要优势和劣势分别是什么？

优势：

速度与成本：无需构建庞大的索引库，也无需在推理时进行实时的网络搜索或数据库查询，因此响应速度极快，且计算成本仅限于模型推理本身。
隐私与离线能力：由于不需要访问外部数据，该方法可以在完全离线的环境中运行，同时也避免了将敏感查询发送给外部搜索引擎带来的隐私泄露风险。
隐蔽性：在某些场景下，可以避免被检索目标通过日志发现被查询。

劣势：

知识时效性：无法核查训练数据截止之后发生的新事件。
不可解释性：检索方法可以提供证据来源（如某个网页的链接），而参数化方法只能给出一个结论，用户很难知道模型是基于哪部分记忆做出的判断，这在需要高可信度的场景下是一个弱点。
长尾知识匮乏：对于非主流的长尾事实，模型可能根本没有学习过，导致准确率大幅下降。

论文中提到了哪些具体的技术手段来激发 LLM 的参数化知识进行核查？

论文探讨了几种不同的提示策略和利用模型内部机制的方法：

事实分解与验证：将一个复杂的陈述拆解为多个原子化的事实，分别让模型验证这些子事实的真伪，最后汇总结果。
生成式证据挖掘：不进行外部检索，而是要求模型根据其内部记忆“生成”支持或反驳该陈述的理由或证据。如果模型能生成确凿的反驳理由，则判定为假。
利用蕴涵关系：通过分析陈述文本与模型内部知识之间的逻辑关系（如蕴含 Entailment 或矛盾 Contradiction），利用自然语言推理（NLI）能力进行判断。
探测 Logit 或隐藏层：更技术性的手段可能包括直接观察模型输出层特定 token 的 logit 值，或者通过探测分类器分析模型的隐藏状态，以提取模型对该陈述真实性的隐式判断。

这种方法主要适用于哪些应用场景？

基于其特点，该方法主要适用于以下场景：

快速内容审核：在社交媒体或评论系统中，需要对海量用户生成的内容进行初步筛查。对于明显违背常识或历史事实的错误信息，LLM 可以在不产生巨额检索费用的情况下快速拦截。
离线或私有化部署：在金融、医疗或涉密环境中，设备无法连接互联网，利用本地部署的 LLM 进行事实核查是唯一可行的自动化方案。
辅助写作与校对：作为写作助手的一部分，帮助作者检查文档中是否存在明显的逻辑矛盾或常识性错误，无需联网即可提供实时的语法和事实反馈。
**数据集清洗

引用

ArXiv: http://arxiv.org/abs/2603.05471v1
PDF: https://arxiv.org/pdf/2603.05471v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签：事实核查 / 无检索 / 参数化知识 / INTRA / 内部表示 / 模型评估 / 可信度 / 长尾知识
场景： Web应用开发

利用LLM参数化知识实现无检索的事实核查