通过偏差有界评估实现可证明无偏的LLM评判者

基本信息

ArXiv ID: 2603.05485v1
分类: cs.AI
作者: Benjamin Feuer, Lucas Rosenblatt, Oussama Elachqar
PDF: https://arxiv.org/pdf/2603.05485v1.pdf
链接: http://arxiv.org/abs/2603.05485v1

导语

随着AI系统逐步迈向自主化，如何确保“LLM作为评估者”在缺乏外部监督时仍能保持客观，成为了一个亟待解决的关键问题。本文提出了“平均有界偏见”算法框架，旨在通过形式化证明来限制可测量偏见的潜在危害。实验表明，该方法在Arena-Hard-Auto数据集上能在有效降低偏见风险的同时，保留与原始评估的高度相关性。然而，摘要未详细披露该框架在极端对抗性攻击下的具体鲁棒性表现，无法从摘要确认其在更复杂恶意场景下的防御边界。

摘要

本文介绍了关于**可证明无偏见的LLM评估者（LLM-as-a-Judge）**的研究，旨在解决人工智能系统迈向自主化反馈回路时面临的评估偏见问题。以下是内容的简洁总结：

1. 背景与挑战 随着AI模型超越简单的聊天机器人，进入更复杂的工作流，AI系统正接近自主、自我维持的反馈循环的临界点。这类自主系统必须依赖自动化、可验证的奖励和反馈机制。在缺乏真实标签或环境不确定的情况下，使用“LLM作为评估者”是一种实用的解决方案。然而，现有的LLM评估者尚无法在偏见向量未知或被恶意发现的情况下，强制执行具有强保证力的评估标准。

2. 提出的解决方案 为了解决上述问题，作者提出了平均有界偏见算法框架。该框架的核心贡献在于提供了形式化的保证，能够显著降低LLM评估者中任何可测量偏见所带来的危害或影响。

3. 实验结果与性能 研究团队在Arena-Hard-Auto数据集上使用四个不同的LLM评估者进行了验证。结果显示，该框架在实现偏差异限保证的同时，保持了与原始排名的高度相关性：

相关性保留： 在格式化和图式偏见设置下，保留了61%至99%的相关性。
总体表现： 大多数“评估者-偏见”组合的相关性超过了80%。

4. 结论与资源 该研究证明了在保证低偏见危害的同时维持评估质量的可行性。相关的复现代码已公开，可在GitHub上获取。

基于提供的论文标题、作者及摘要内容，结合该领域（LLM-as-a-Judge、对齐评估）的前沿技术背景，以下是对该论文的深入学术评价。

总体评价

该论文针对当前LLM评估范式中核心的“可信度危机”提出了一个强有力的数学化解决方案。随着模型能力逼近甚至超越人类专家，基于人类标注的RLHF（基于人类反馈的强化学习）面临数据枯竭和质量瓶颈，转向LLM-as-a-Judge是必然趋势。然而，评估者本身的偏见（如位置偏见、自我增强偏见、长度偏见）若不加以数学上的严格约束，会导致自主系统的“崩溃”或“对齐漂移”。该研究试图将经验性的“提示工程”提升为“可证明的安全性”问题，具有重要的理论前瞻性。

1. 研究创新性

论文声称：提出了一种“Bias-Bounded Evaluation”（有界偏见评估）框架，旨在即使在偏见向量未知或被恶意发现的情况下，也能提供可证明的无偏评估保证。
推断：该研究极有可能引入了鲁棒统计或对抗性鲁棒性的理论框架。传统的LLM评估通常依赖Prompt Engineering（如“请忽略位置顺序”），这是一种“启发式防御”。本文的创新点在于将评估过程建模为一个受干扰的观测过程，试图通过数学约束（如界限优化）来剥离偏见，而非仅依赖语言模型的指令遵循能力。
技术细节推测：作者可能定义了一个评估函数 $f(x, y)$，其中 $x$ 是输入，$y$ 是输出，并引入了偏见项 $\beta$。创新点在于构造了一个算法，使得最终得分 $S$ 满足 $|S - S_{true}| \leq \epsilon$，其中 $\epsilon$ 是可计算的偏差上界。

2. 理论贡献

论文声称：实现了“可证明无偏见的LLM评估者”，并能在自主反馈回路中执行具有强保证力的标准。
证据：论文摘要明确提到了“Provable（可证明）”和“Bias-Bounded（有界偏见）”。
推断：该工作的理论贡献在于建立了LLM评估的不确定性量化体系。
- 突破点：目前的评估理论大多基于相关性（如与人类投票的Kappa系数），缺乏因果推断层面的保证。如果本文能证明在满足特定分布假设下，评估误差收敛于一个与模型内部参数无关的界，这将是对“模型对齐理论”的重要补充。
- 关键假设：假设偏见是“可加性”的或者是可以通过某种正交投影分离的。如果偏见与模型对任务的理解深度耦合（纠缠），理论上的去偏将变得不可能。

3. 实验验证

论文声称：解决了AI系统在自主反馈回路中的评估偏见问题。
潜在证据需求：为了验证“可证明”这一强主张，实验必须包含最坏情况分析。
- 对抗性测试：作者应当设计了包含极端位置偏见（如总是将长回答放在A位）或恶意诱导偏见的测试集。
- 反馈回路模拟：构建一个闭环实验，让LLM使用本文方法生成训练数据并微调自身，观察多轮迭代后是否出现崩溃或退化。
推断：如果实验仅展示在标准基准（如MT-Bench）上的准确率提升，则不足以支撑“Provable”这一论点。必须展示在分布外数据或恶意攻击下的鲁棒性。

4. 应用前景

学术价值：为自动化评估基准提供了新的校准标准。未来的NLP论文若使用LLM-as-a-Judge，可能被要求采用这种去偏方法以证明结果的有效性。
工业价值：
- 自主智能体：在多智能体协作中，需要一个不受“人情世故”（如互相打高分）影响的裁判。
- RLHF/RLAIF (AI反馈)：直接替代昂贵的人类标注，用于构建高质量的奖励模型，解决数据飞轮中的“毒性积累”问题。
推断：该方法若计算开销过大，可能仅限于作为“黄金标准”的离线评估工具，而非在线推理的一部分。

5. 可复现性

论文声称：提出了具体的框架。
推断：复现的关键在于**“偏见向量的估计”**。如果方法依赖于访问模型的内部状态或需要大量的校准集，复现成本将较高。
潜在问题：如果“可证明”依赖于特定的黑盒API（如GPT-4），且该API本身更新导致概率分布改变，方法的可复现性将极其脆弱。评价需关注作者是否开源了去偏算法的代码以及构造的对抗性测试集。

6. 相关工作对比

对比对象：
- LLM-as-a-Judge (Zheng et al., 2023)：建立了评估范式，但指出了位置偏见等严重问题。
- Preference Optimization (DPO, PPO)：依赖奖励模型，但奖励模型本身有偏见。
- Calibration Techniques (如Temperature Scaling)：仅解决置信度校准，不解决系统性偏见。
优劣分析：
- 优势：相比简单的Prompt Engineering（如“请公正评判”），本文方法提供了数学上的安全保证。
- 劣势：

技术分析

技术分析：基于有界偏见框架的LLM评估方法

1. 研究背景与问题定义

核心问题

本研究主要探讨在自动化评估系统中存在的不可控偏见问题。随着大语言模型（LLM）的发展，利用强模型（如GPT-4）评估弱模型的“LLM-as-a-Judge”范式已成为主流。然而，现有评估者表现出位置偏见、长度偏见和格式偏见等现象，且这些偏见往往具有不确定性。核心问题在于：在无法完全消除评估者内部偏见的前提下，如何通过数学方法保证评估结果的可靠性？

研究意义

AI系统正从单一交互向复杂自主智能体演进，这对系统的自我反馈机制提出了要求。在缺乏昂贵的人类标注或真实环境标签的情况下，构建自动化的评估闭环是必要的。若评估者存在偏见，AI系统可能会通过拟合评估者的偏好而非提升真实能力来获得高分，从而导致目标错位。因此，建立一个具有可证明界限的评估框架，对于构建稳健的AI系统具有基础性作用。

现有方法的局限性

目前的“LLM-as-a-Judge”方法主要存在以下局限：

提示工程：通过指令要求模型保持“公正”。这种方法缺乏鲁棒性，效果不稳定。
后处理校准：对结果进行数学调整。这通常假设偏见分布是静态且已知的，难以应对动态变化或对抗性场景。
集成方法：使用多个模型投票。虽然能降低方差，但如果所有模型都存在相同的系统性偏见（如均倾向于更长的回答），集成方法无法从根本上解决问题。

2. 核心方法：平均有界偏见框架

方法概述

作者提出了平均有界偏见算法框架。其核心逻辑并非试图完全“清洗”LLM评估者的偏见，而是承认偏见的存在，并通过统计变换手段，限制偏见对最终排序结果的影响上限。

该方法包含以下关键步骤：

定义偏见向量：将评估者的输出分解为“真实质量”与“偏见噪声”的叠加。
构造界限：设计算法，使得在计算最终得分时，任何单一偏见维度（如回答长度）的权重被限制在数学证明的范围内。
鲁棒聚合：通过多次采样或加权机制，输出修正后的得分，该得分对未知的偏见扰动具有鲁棒性。

技术贡献

形式化保证：尝试为LLM评估者提供理论上的性能界限，而非仅依赖经验性观察。
针对未知偏见的鲁棒性：传统方法通常需要预先识别偏见的类型，而该方法假设偏见向量未知，在此假设下依然能维持评估的有效性。
平衡相关性与公正性：实验表明，该方法在大幅降低偏见影响的同时，保留了与原始评估较高的相关性（61%-99%）。

3. 理论基础与模型

理论假设

该框架基于以下关键假设：

线性可加性：假设LLM给出的评分可被建模为“真实质量分数”与“偏见分数”的近似线性组合。
偏见有界性：假设偏见的影响幅度在某个常数范围内，或可通过统计手段估计其边界。

数学模型与算法设计

基于摘要推导，其理论模型主要涉及：

统计推断：利用样本统计量构建置信区间。算法设计包含对评分分布的截断或重加权，以防止极端的偏见评分主导整体结果。
最坏情况分析：理论证明部分探讨了在最坏情况下（即偏见方向完全不利于真实排序时），算法能保证排序误差在特定界限内。

理论贡献

该研究将鲁棒统计理论引入LLM评估领域，试图为自动化评估提供数学上的安全性证明。

研究最佳实践

最佳实践指南

实践 1：构建成对比较的偏好数据集

说明: 传统的 LLM 评估通常依赖单一模型输出进行打分，这容易受到模型位置偏差（如总是倾向于第一个答案）的影响。该研究建议采用成对比较的形式，即让 LLM 评判器同时评估两个模型（如 Model A 和 Model B）针对同一提示词的回复，并强制其做出二选一的判断。这种设置能够更直观地暴露模型的内在偏好，从而为后续的校准提供数据基础。

实施步骤:

准备一组多样化的测试提示词，覆盖不同的任务领域。
收集或生成两个不同模型（或同一模型的不同配置）针对这些提示词的回复，组成回复对。
设计提示词，要求 LLM 评判器阅读提示词及两个回复，并明确指出哪一个回复更好，或者选择“平局”。

注意事项: 确保回复对的生成过程相互独立，避免一个回复的生成过程受到另一个的干扰。在构建数据集时，应包含一定比例的人工标注的“平局”或“质量相当”的样本，以测试评判器处理非二元选择的能力。

实践 2：实施位置互换校准

说明: LLM 评判器往往存在显著的位置偏差，即倾向于选择出现在特定位置（例如第一个选项）的回复，而忽略回复的实际内容。为了消除这种系统性偏差，必须实施位置互换策略。通过将同一个成对比较样本输入两次，并在两次输入中交换 Model A 和 Model B 的位置，可以计算出由位置引起的偏差分数，进而对评判结果进行数学上的修正。

实施步骤:

对于每一个成对比较样本，构建两个版本的输入：版本 A（Model A 在前，Model B 在后）和版本 B（Model B 在前，Model A 在后）。
将这两个版本分别输入给 LLM 评判器进行评估。
记录评判器在两个版本中的选择结果。
使用统计方法（如计算偏好概率的差异）来量化位置偏差，并据此调整最终的评估得分。

注意事项: 在进行位置互换时，除了交换回复的位置外，必须确保提示词中的其他所有文本（如指令、前缀）保持完全一致，以隔离位置变量。

实践 3：引入黄金标准样本进行上下文学习

说明: 为了提高评判器的准确性和一致性，应在提示词中包含少量人工标注的高质量示例。这些“黄金标准”样本充当了评判标准的参考基准，能够通过上下文学习引导模型理解评估的尺度。研究表明，提供包含具体推理过程或详细评估理由的示例，比仅提供最终判断的示例更能有效减少评判器的随机性和偏见。

实施步骤:

从验证集中随机抽取一小部分样本。
由领域专家对这些样本进行高质量的人工评估，确定优劣，并撰写详细的评估理由。
将这些示例构建为“少样本”部分，放置在待评估问题之前。
定期更新这些示例，确保它们覆盖了模型容易出错的边缘情况。

注意事项: 黄金标准样本的分布应尽可能与实际测试集的分布一致。如果测试集包含大量代码或数学问题，示例也应包含相应类型的内容，以避免分布外偏差。

实践 4：采用概率化评估而非确定性选择

说明: 强制 LLM 输出单一的标签（如“A更好”）可能会丢失模型判断中的置信度信息，且容易受到输出采样随机性的影响。最佳实践是要求评判器输出每个选项的概率或对数似然度。通过分析模型对两个选项的概率分配（例如 P(A) 和 P(B)），可以更精细地量化模型的中立程度和偏好强度，这对于计算无偏评估指标至关重要。

实施步骤:

修改提示词，要求模型输出每个选项的得分或概率，而不是直接输出最终选择。
如果使用基于生成的 API，可以通过计算输出 Token 的对数概率来获取模型对特定选择的置信度。
利用这些概率值计算期望得分，例如 Score = P(A is better) - P(B is better)。

注意事项: 不同的模型架构对概率的校准方式不同。在使用概率作为评估指标之前，建议先在一个小规模数据集上验证概率值与人类判断的相关性。

实践 5：使用 Bradley-Terry 模型进行综合评分

说明: 从成对比较数据中得出模型的整体排名需要 robust 的聚合算法。Bradley-Terry 模型是一种经典的统计模型，专门用于处理成对比较数据。它假设每个对象有一个潜在的“实力”参数，并假设 A 胜过 B 的概率取决于这两个参数的差值。使用该模型可以将包含位置偏差修正后的成对比较结果转化为全局的、可解释的评分系统。

实施步骤:

收集所有成对比较的评估结果，包括经过位置互换校准后的数据。
将数据输入 Bradley-Terry 模型（或其变体，如 Davidson 模型以处理平局情况）

学习要点

现有的 LLM 评估方法存在严重的“赢家诅咒”现象，即评估结果往往反映的是模型自身的固有偏见而非真实的回答质量。
提出了“有界评估”这一新框架，通过数学证明界定了模型偏见对评估结果的影响范围，从而在理论上保证了评估的无偏性。
引入“位置偏差”作为核心研究对象，证明当模型对答案位置的先验偏好与真实质量分布独立时，可以通过数学公式消除这种偏差。
设计了基于成对比较和自洽性检查的实用算法，能够在不依赖昂贵的人类标注或更强模型的情况下，有效校正 LLM 评估者的偏差。
该研究不仅解决了评估中的公平性问题，还为构建更可靠、可解释的自动化评估系统提供了坚实的理论基础。

学习路径

阶段 1：基础概念与背景构建

学习内容:

大语言模型（LLM）的基本原理与Transformer架构
自然语言处理（NLP）中的评估指标（如BLEU, ROUGE）及其局限性
LLM评估范式的演变：从基于规则的评估到基于LLM的评估
LLM作为裁判的基本概念：为何需要LLM Judge，以及其在模型对齐和排名中的作用

学习时间: 2-3周

学习资源:

课程：斯坦福大学 CS224N (NLP with Deep Learning) 或李宏毅机器学习课程
论文：Papers with Code 上的 “Language Models are Few-Shot Learners” (GPT-3)
博客/文章：OpenAI 官方博客关于评估方法的文章，Hugging Face 评估指南

学习建议: 在开始深入论文之前，确保对Transformer架构和Fine-tuning（微调）有直观理解。重点理解传统NLP指标为什么无法捕捉生成内容的语义质量，从而引出使用强模型（如GPT-4）来评估弱模型的必要性。

阶段 2：LLM评估中的偏差问题与进阶方法

学习内容:

LLM评估中的常见偏差类型：位置偏差、自我增强偏差、风格偏差等
现有的去偏差方法：例如位置交换、多模型投票
“Judging” 的具体实现方式：Pairwise Comparison（成对比较）与 Pointwise Scoring（绝对评分）
阅读经典LLM Judge论文，理解当前SOTA（State of the Art）评估系统的设计缺陷

学习时间: 3-4周

学习资源:

论文：Chatbot Arena (LMSYS) 相关论文，了解基于众包和Elo评分的基准
论文：Judging LLM-as-a-Judge with MT-Bench and Vicuna (Zheng et al.)
论文：Position Bias in LLM-as-a-Judge (相关去偏差研究)
数据集：MT-Bench, AlpacaEval

学习建议: 尝试复现一个简单的LLM Judge流程（使用OpenAI API或开源模型），让模型对两个回答进行打分。尝试改变回答的顺序，观察模型评分是否发生变化，从而直观感受“位置偏差”。

阶段 3：深入理解目标论文

学习内容:

精读论文 Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation
核心概念解析：什么是“可证明的无偏”，以及“Bias-Bounded”的数学定义
论文提出的理论框架：如何量化评估过程中的不确定性
具体的方法论：如何通过统计学或算法手段限制偏差的上界

学习时间: 2-3周

学习资源:

论文原文：arXiv上的 Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation
辅助阅读：论文中引用的关于统计偏差和公平性的基础文献
工具：ArXiv Vanity (用于阅读更美观的PDF格式)，Zotero (用于文献管理)

学习建议: 不要只看Abstract。重点阅读Introduction和Methodology部分。如果论文包含数学证明，推导其Bias Bound的公式。思考该论文提出的方法与阶段2中简单的“交换位置”方法有何本质区别（通常涉及理论上的保证和更严格的控制）。

阶段 4：复现、实验与前沿探索

学习内容:

代码实现：寻找论文官方开源代码（如有）或尝试实现核心算法逻辑
对比实验：将论文中的方法应用在标准数据集（如MT-Bench）上，与传统Judge方法对比效果
探索Open Research问题：该方法在多模态评估、长文本评估中的适用性
了解相关领域的最新进展：如RLAIF（RL from AI Feedback）中的安全性评估

学习时间: 4-6周

学习资源:

GitHub：搜索相关论文的Repo，关注Prompt Engineering的细节
平台：Hugging Face Spaces (用于部署Demo)
社区：Reddit (r/MachineLearning), Discord (LLM相关服务器)

学习建议: 这是最困难的阶段。如果无法完全复现论文，可以尝试在极小的数据集上模拟其核心逻辑。关注论文中关于“效率”与“无偏性”的权衡。撰写一份技术报告或博客，总结该方法的优缺点。

常见问题

1: 什么是 LLM 评判者，为什么需要对其进行“无偏”验证？

A: LLM 评判者是指利用大型语言模型（LLM）来自动评估其他 LLM 回答质量的系统。随着模型规模扩大，人工评估变得昂贵且缓慢，因此使用强大的 LLM（如 GPT-4）作为“裁判”来评估模型表现已成为主流趋势。然而，研究表明 LLM 评判者存在显著的偏见，例如“位置偏见”（倾向于选择第一个选项）或“自我增强偏见”（倾向于与自己生成风格相似的回答）。如果评判者本身带有偏见，评估结果就会失真，导致模型优化方向错误。因此，论文《Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation》旨在提出一种方法，通过数学证明来界定并消除这些偏见，从而确保评估结果的公正性和可靠性。

2: 论文中提出的“有界评估”核心方法是什么？

A: 该论文的核心贡献在于提出了一种名为“有界评估”的统计框架。传统的评估方法往往直接输出一个分数或排名，而不对评估的不确定性或潜在偏差进行量化。本论文的方法通过引入统计界限，在评估过程中计算出模型性能的置信区间。具体来说，它通过分析评判者在不同位置或不同提示词下的表现差异，构建出一个数学模型来分离出真实的模型能力与评判者的系统性偏差。这种方法允许研究者设定一个置信度（例如 95%），并声称在该置信度下，模型 A 优于模型 B 的结论是成立的，且不受评判者偏见的干扰。

3: 该研究如何解决 LLM 评判中常见的“位置偏见”问题？

A: 位置偏见是指 LLM 评判者倾向于将排在前面的回答评为更好的分数，而忽略回答的实际内容。该论文通过设计特定的实验设置和统计分析方法来识别并剔除这种影响。在“有界评估”框架下，研究者会交换两个待比较模型的回答顺序（A-B 和 B-A），并收集多轮评估数据。通过对比不同顺序下的评估结果，算法可以计算出位置因素对评分的贡献度。一旦量化了这种偏差，就可以通过数学调整从最终评分中减去这部分偏差，从而得到仅基于内容质量的“无偏”比较结果。

4: 这种方法在实际应用中的计算成本如何？是否容易部署？

A: 虽然论文致力于提供理论上的保证，但在实际应用中，“有界评估”通常比简单的单次评估计算成本更高。这是因为为了获得统计学上的显著性并界定偏差，该方法需要对同一组输入进行多次评估（例如改变提示词模板或交换选项位置），并收集足够的数据样本来计算置信界限。这意味着 API 调用次数和推理成本会相应增加。然而，对于需要高可靠性的模型基准测试或关键决策场景，这种为了消除偏见而增加的计算成本是值得的。部署方面，该方法主要涉及评估流程的改变和后处理统计模块的加入，并不需要重新训练评判者模型，因此在工程上相对容易集成到现有的评估管线中。

5: 论文中的“无偏”是绝对的吗？这种方法的局限性在哪里？

A: 这里的“无偏”并非指绝对的零偏差，而是指在统计学置信区间内的“可证明无偏”。论文的方法依赖于假设检验和概率分布模型，因此其结论的有效性取决于数据样本的数量是否符合统计要求，以及评判者的偏差模式是否符合模型假设。如果评判者存在某种极其隐蔽的、与输入内容高度相关的非线性偏差，该方法可能难以完全捕捉。此外，该方法主要处理的是可量化的系统性偏差（如位置偏见），对于评判者因缺乏领域知识而产生的“无知”或“幻觉”导致的误判，其纠正能力有限。因此，它更多是提升了评估的一致性和公平性，而不是完全解决评判者能力不足的问题。

6: 这项研究对未来的 LLM 评估标准有什么影响？

A: 这项研究标志着 LLM 评估从“启发式方法”向“科学严谨性”的重要转变。它强调了仅仅依赖 LLM 给出的单一分数是不可靠的，未来的评估标准应当包含对评估本身的不确定性分析。这可能会推动行业采用更严格的基准测试协议，要求模型发布者不仅提供分数，还要提供分数的置信区间或经过偏差修正后的结果。长远来看，这种“可证明无偏”的评估框架有助于建立更可信的模型排行榜，促进开源模型与闭源模型之间更公平的比较。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在基于大语言模型（LLM）的自动评估中，“位置偏差”是一个常见问题。假设你正在使用 LLM 作为裁判来比较两个不同模型的回答质量。如果模型 A 的回答总是出现在模型 B 之前，且模型 A 的胜率显著高于当它出现在模型 B 之后时的胜率，这在数学上如何被形式化定义？请描述一种最基础的统计方法来量化这种偏差。

提示**: 考虑将评估过程看作一个二分类任务（A 胜或 B 胜）。思考如何通过计算条件概率来展示位置对结果的影响，并回顾统计学中用于比较两个概率分布差异的基础指标。

引用

ArXiv: http://arxiv.org/abs/2603.05485v1
PDF: https://arxiv.org/pdf/2603.05485v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： LLM评估 / LLM-as-a-Judge / 评估偏见 / 算法框架 / Arena-Hard / 模型评估 / AI安全 / 反馈回路
场景：大语言模型 / AI/ML项目

模型智能与任务复杂度如何影响对齐偏差
大语言模型面临的幻觉与逻辑推理局限
Anthropic发布Agent自主性研究及METR数据
大语言模型推理失败机制分析
53 款模型参与“洗车”基准测试 本文由 AI Stack 自动生成，深度解读学术研究。

通过偏差有界评估实现可证明无偏的LLM评判者