TaxonRL：基于中间奖励的可解释细粒度视觉推理

基本信息

ArXiv ID: 2603.04380v1
分类: cs.CV
作者: Maximilian von Klinski, Maximilian Schall
PDF: https://arxiv.org/pdf/2603.04380v1.pdf
链接: http://arxiv.org/abs/2603.04380v1

导语

针对传统视觉-语言模型在区分近缘物种时表现受限的问题，本研究提出了TaxonRL框架，通过结合强化学习与分层中间奖励机制，将推理过程显式分解为物种、属、科等层级。该方法在Birds-to-Words数据集上取得了超越人类的精度，并生成可验证的推理轨迹，表明强制结构化推理有助于提升细粒度判别的透明度与泛化能力。虽然摘要未详述具体奖励函数设计，但其在灵长类与海洋生物等跨域任务中的表现证实了该框架的有效性。

摘要

TaxonRL是一种结合强化学习与分层中间奖励机制的可解释细粒度视觉推理方法。传统视觉-语言模型在区分同一属或科内视觉相似物种的对比性分类任务中表现有限，为此，TaxonRL采用基于组相对策略优化的强化学习，将推理过程分解为物种、属、科等层级的分层预测，并通过中间奖励激励模型在最终分类前逐层显式推理各层级特征，从而在提升精度的同时实现透明、可验证的决策过程。在Birds-to-Words等数据集上，TaxonRL达到91.7%的平均准确率，超越人类表现（77.3%），并生成可解释的推理轨迹，且在灵长类与海洋生物等跨域验证任务中展现出强泛化能力。其结果表明，强制结构化分层推理为细粒度视觉判别提供了有效且可迁移的框架。

论文评价：TaxonRL

总体评价 TaxonRL 试图解决细粒度视觉分类（FGVC）中的一个核心痛点：在视觉特征极度相似（如同种鸟类、不同属的灵长类）的情况下，如何既提高分类精度，又保持决策过程的可解释性。该论文通过引入生物学中的层级分类概念，利用强化学习（RL）的分层奖励机制，强制模型学习“由粗到细”的推理路径。从学术角度看，这是一项将先验知识（生物分类学）与深度学习（RL）相结合的扎实工作；从应用角度看，它在高精度生物识别、医疗诊断等对可解释性要求极高的领域具有显著潜力。

以下是分维度的深入评价：

1. 研究创新性

论文声称：传统端到端模型缺乏细粒度区分能力，TaxonRL 提出了一种结合分层中间奖励的强化学习框架，实现了可解释的细粒度视觉推理。
证据：论文采用了基于组相对策略优化的算法，将推理过程分解为科、属、种的层级预测，并引入中间奖励 $R_{inter}$ 激励模型在每一层级进行正确的特征聚焦。
推断：该研究的核心创新在于**“结构化推理的显式建模”**。传统的 FGVC 方法（如基于注意力机制的 CNN）通常隐式地学习特征，而 TaxonRL 显式地模仿了人类专家的分类决策树。这种将生物学先验（分类层级）硬编码为 RL 状态空间的做法，有效地降低了最终分类的搜索空间，是方法论上的主要亮点。

2. 理论贡献

论文声称：强制结构化分层推理为细粒度视觉判别提供了理论支撑，且该方法具有跨域泛化能力。
证据：模型不仅在鸟类数据集上有效，还在灵长类和海洋生物数据集上通过验证。
推断：论文在理论上补充了**“神经符号融合”**在视觉推理领域的应用。它证明了在深度学习中引入结构化的因果逻辑（即分类学上的从属关系）可以提升模型的泛化边界。
关键假设与失效条件：
- 假设：数据集必须具备明确的、非重叠的层级结构。
- 失效条件：如果分类学本身存在多义性（如某些物种在分类学上存在争议，或特征不符合典型的科/属特征），RL 的硬分层奖励可能会误导模型，导致强行拟合错误的路径。
- 检验方式：在具有“水平基因转移”或分类争议的数据集上进行测试，观察模型损失函数的收敛情况与推理路径的逻辑一致性。

3. 实验验证

论文声称：TaxonRL 在 Birds-to-Words 数据集上达到 91.7% 的平均准确率，显著超越人类表现（77.3%）。
证据：论文展示了与 SOTA 模型的对比表格，以及消融实验（Ablation Study）关于中间奖励权重的分析。
推断：实验结果在数值上是令人印象深刻的，尤其是超越人类专家的表现。然而，“超越人类”这一指标需要谨慎解读。人类专家的 77.3% 可能受限于知识储备而非视觉能力，而模型的 91.7% 很可能是在训练集分布内的极优化。
潜在问题：实验可能存在数据泄露风险。如果在训练集中同一亚种的不同个体图片高度相似，模型可能记住了纹理特征而非真的学会了“推理”。
检验方式：建议进行**“长尾分布测试”或“零样本分类测试”**（Zero-shot Classification），即使用训练集中未见过的属或种进行测试，以验证模型是否真正学到了通用的判别特征。

4. 应用前景

论文声称：该方法生成的可解释推理轨迹对跨域验证任务有重要价值。
证据：论文展示了模型在判断时关注的区域及其对应的层级预测路径。
推断：TaxonRL 的应用价值极高，特别是在高风险领域。
- 生物多样性监测：自动识别珍稀物种，并提供“为什么是这种鸟”的依据（如：喙的形状决定了属，颜色决定了种）。
- 医疗辅助诊断：医疗影像分类同样具有层级性（系统->器官->组织->病灶）。TaxonRL 的思路可以迁移到病理学诊断中，提供分级的诊断依据，增加医生对 AI 的信任度。

5. 可复现性

论文声称：方法描述清晰，基于组相对策略优化。
证据：摘要中提到了具体的数据集和算法框架。
推断：仅凭摘要无法完全评判代码层面的复现性。RL 训练通常对超参数（如奖励系数 $\lambda$、探索率 $\epsilon$）非常敏感。如果论文未公开详细的奖励塑形代码，复现其 91.7% 的高精度将极具挑战性。此外，环境的构建（如何定义动作空间是连续还是离散）是复现的关键细节。

6. 相关工作对比

优势：相比传统的基于注意力的方法（如 MA-CNN），TaxonRL 提供了全局的决策逻辑，而不仅仅是局部热力图；相比纯端到端的大模型（如 CLIP），它在特定领域的细粒度判别上更高效，且不需要海量

技术分析

以下是对论文《TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning》的深入分析。

TaxonRL: 基于强化学习与中间奖励的可解释细粒度视觉推理深度分析

1. 研究背景与问题

核心问题

本研究旨在解决细粒度视觉分类中的核心难题：如何在区分外观极其相似的子类别（如同一属内的不同鸟类物种）时，不仅提高分类精度，还能赋予模型可解释性和结构化推理能力。现有的“黑盒”深度学习模型虽然能提取特征，但无法提供符合人类认知逻辑的分类依据。

问题背景与意义

细粒度视觉分类是计算机视觉中极具挑战的任务，因为类间差异极小（如羽毛颜色的细微变化），而类内差异较大（如姿态、光照变化）。传统的FGVC方法主要依赖更强的特征提取器或注意力机制，但这往往导致模型直接“死记硬背”数据集的统计偏差，而非学习真正的判别性特征。在生物学、生态学等实际应用中，单纯给出一个分类标签是不够的。专家需要知道模型是基于“喙的形状”还是“羽毛的颜色”做出的判断。因此，构建一个既能像专家一样思考（分层推理），又能准确分类的AI系统具有重要的科学和应用价值。

现有方法的局限性

缺乏可解释性：主流的基于CNN或Transformer的方法通常是端到端的黑盒，难以验证其决策依据。
忽略先验结构：现有方法大多将FGVC视为平面的分类问题，忽略了生物学中固有的层级结构（界、门、纲、目、科、属、种）。
数据依赖性强：模型往往需要大量标注数据训练，且容易过拟合，在跨域泛化（如从鸟类迁移到灵长类动物）时表现不佳。

重要性

该研究的重要性在于它尝试将**人类的知识体系（分类学层级）**引入深度学习，通过强化学习模拟人类专家的鉴别过程，解决了AI在专业领域“知其然不知其所以然”的信任危机问题。

2. 核心方法与创新

核心方法：TaxonRL

TaxonRL 是一种结合了强化学习（RL）与分层中间奖励机制的框架。它不直接输出最终的物种标签，而是将分类过程建模为一个序列决策过程。

分层状态空间：定义了一个从粗粒度到细粒度的状态空间（例如：目 -> 科 -> 属 -> 种）。
智能体：基于视觉特征，在每个层级决定进入哪个子分类。
中间奖励机制：这是方法的核心。模型不仅在做对最终分类时获得奖励，在每一个中间层级（如正确预测了“科”或“属”）也会获得即时奖励。

技术创新点

基于组相对策略优化：针对分类任务的特点，改进了传统的策略梯度算法。它通过对比正确动作与其他动作的优势来更新策略，更适合处理离散的分类输出。
显式结构化推理：强制模型在预测最终物种前，必须先预测其所属的属和科。这种约束使得推理路径必须是符合生物学逻辑的。
软性轨迹约束：利用分类学树结构作为先验知识，限制了搜索空间，使得模型在数据稀缺的情况下也能依据层级关系进行合理推断。

方法的优势

透明性：生成的推理轨迹清晰展示了模型是如何从大类一步步缩小范围到具体物种的。
鲁棒性：中间奖励提供了密集的监督信号，缓解了RL中常见的稀疏奖励问题，加速了收敛并提高了稳定性。
可迁移性：实验表明，学到的分层推理能力可以迁移到完全不同的领域（如从鸟类迁移到灵长类），证明其学到了通用的“区分细微差异”的能力。

3. 理论基础

理论依据

该方法的理论基础主要建立在两个支柱上：

层次强化学习：利用抽象和层级来加速决策过程。将复杂的分类任务分解为多个简单的子任务（子层级预测）。
课程学习：通过先学习区分大类（容易），再学习区分小类（困难），符合认知学习的规律。

算法设计

论文采用了Actor-Critic架构的变体：

Actor（策略网络）：输入图像特征，输出在每个层级选择某个分类的概率。
Critic（价值网络）：评估当前状态（当前层级的分类置信度）的价值，用于减少方差。
损失函数：包含两部分，一是RL的策略梯度损失（利用中间奖励 $R_{inter}$ 和最终奖励 $R_{final}$），二是可能的价值函数损失。

理论贡献分析

从理论角度看，TaxonRL 将分类问题从单一的“模式匹配”问题转化为“序贯决策”问题。这种转化在数学上引入了时间维度的依赖性，使得模型可以利用历史预测（父层级）来指导当前的预测（子层级），理论上降低了输出的解空间，从而降低错误率。

7. 学习建议

适合读者

从事计算机视觉（特别是细粒度分类）的研究人员。
对可解释性AI（XAI）和强化学习感兴趣的学者。
需要部署高可靠性AI系统的工程师。

前置知识

深度学习基础：CNN, ResNet架构。
强化学习基础：理解策略梯度、Actor-Critic算法、奖励函数设计。
细粒度视觉分类：了解FGVC的常见难点和基准数据集。

阅读顺序

先阅读摘要和引言，理解“为什么要分层”。
重点阅读Method部分，理清状态转移和中间奖励的计算公式。
查看实验部分的图表，特别是可视化推理轨迹的部分，直观理解其工作原理。

研究最佳实践

实践 1：利用中间奖励信号解决视觉推理中的稀疏反馈问题

说明: 在复杂的细粒度视觉分类任务中，仅使用最终分类结果作为奖励信号过于稀疏，导致强化学习模型难以收敛。TaxonRL 的核心优势在于利用分类学层级结构，在推理过程的中间步骤提供奖励反馈。这种机制能够引导模型更快地学习正确的视觉推理路径，即使最终答案错误，也能对部分正确的推理步骤进行奖励。

实施步骤:

构建或获取目标数据集的层级标签树。
设计奖励函数，使其包含两部分：一部分基于最终预测的准确性，另一部分基于中间节点预测的准确性。
在训练循环中，当智能体到达层级结构中的中间节点时，根据该节点的预测正确性给予即时奖励。

注意事项: 确保中间奖励的权重经过调优，避免模型为了追求中间节点的得分而牺牲了最终分类的准确性。

实践 2：构建可解释的逐步推理策略

说明: 传统的深度学习模型往往是端到端的黑盒，缺乏可解释性。本实践建议采用分层强化学习策略，显式地模拟人类从粗粒度到细粒度的推理过程。通过将决策过程分解为一系列沿着分类学树向下遍历的步骤，模型不仅做出了预测，还展示了得出结论的推理路径。

实施步骤:

将分类任务建模为马尔可夫决策过程（MDP），其中状态对应于图像特征和当前所在的分类节点，动作对应于移动到子节点。
训练策略网络，使其学会在当前节点判断是继续向下细分还是停止。
记录决策路径，将其作为模型预测的可解释性依据。

注意事项: 推理路径的长度需要控制，过深的路径可能会导致误差累积和计算效率下降。

实践 3：设计细粒度视觉特征提取器

说明: 强化学习依赖于状态表示的质量。在 TaxonRL 框架中，状态通常由图像特征表示。为了实现细粒度的区分，必须使用强大的卷积神经网络（CNN）或视觉Transformer（ViT）作为骨干网络，提取出能够区分微小视觉差异（如鸟类羽毛纹理、昆虫翅膀形状）的特征向量。

实施步骤:

选择在大规模数据集（如 ImageNet）上预训练的骨干模型。
针对特定领域的细粒度数据进行微调，以增强模型对局部细节的敏感度。
将提取的高维特征向量作为强化学习智能体的输入状态。

注意事项: 特征提取器的参数更新需要与强化学习策略的更新同步，可以考虑使用联合训练或交替训练的策略。

实践 4：平衡探索与利用以适应长尾分布

说明: 细粒度数据集通常呈现长尾分布，许多细粒度类别的样本很少。标准的强化学习算法倾向于利用已知的高频类别知识，而忽略低频类别。必须在训练过程中引入适当的探索机制，确保模型能够充分探索分类树的各个分支，特别是那些样本稀少的叶子节点。

实施步骤:

在策略网络中引入熵正则化项，鼓励动作选择的随机性。
使用具有内在动机的探索算法，或者为访问频率低的节点赋予额外的探索奖励。
监控不同类别分支的访问频率，必要时对稀有类别的经验回放进行过采样。

注意事项: 过度的探索可能会降低在常见类别上的性能，需要根据验证集的表现动态调整探索系数。

实践 5：实施课程学习以加速收敛

说明: 直接在复杂的细粒度分类任务上进行强化学习训练极其困难。最佳实践是采用课程学习，先让模型在简单的、粗粒度的分类任务上学习，然后逐渐增加难度，过渡到细粒度分类。这与 TaxonRL 从根节点到叶子节点的遍历逻辑天然契合。

实施步骤:

初始阶段，限制智能体的动作空间，只允许其在分类树的较高层级（粗粒度）进行移动和分类。
当模型在高层级的分类准确率达到阈值后，逐步开放更深层的子节点作为可选动作。
最终阶段，开放所有叶子节点，完成完整的细粒度分类训练。

注意事项: 课程进度的速度需要灵活调整，如果模型在当前阶段表现不佳，应延长该阶段的训练时间。

实践 6：采用混合目标函数优化

说明: 单纯的强化学习目标函数（如最大化累积奖励）可能波动较大，且难以保证特征提取器的判别力。最佳实践是结合强化学习损失和监督学习损失。例如，在计算策略梯度的同时，使用交叉熵损失辅助训练特征提取器，确保提取的特征在语义空间具有良好的可分性。

实施步骤:

定义总损失函数 $L_{total} = L_{RL} + \lambda L_{SL}$，其中 $L_{RL}$ 为策略梯度损失，$L_{SL}$ 为监督分类损失。
在每个训练批次中，同时计算动作的价值估计

学习要点

TaxonRL 提出了一种基于分类学的中间奖励机制，通过引入细粒度的语义层级结构来指导强化学习智能体，从而有效解决了视觉推理任务中稀疏奖励导致训练困难的问题。
该方法利用分类学树结构中的父子关系自动生成中间奖励信号，使得模型能够学习到更具可解释性的推理路径，而不仅仅是直接预测最终答案。
通过这种层级化的奖励设计，TaxonRL 在保持高精度的同时显著提升了模型的可解释性，使决策过程更加透明且符合人类认知逻辑。
该框架采用策略梯度方法进行端到端训练，能够同时优化最终分类结果和中间推理步骤，实现了性能与可解释性的平衡。
在 CUB-200-2011 等细粒度图像分类数据集上的实验表明，TaxonRL 相比传统基线模型在准确率和推理质量上均取得了显著提升。
这种方法为细粒度视觉识别提供了一种新的范式，证明了将结构化知识（如分类学）融入深度学习模型可以有效提升其推理能力。

学习路径

阶段 1：基础理论与技术储备

学习内容:

深度学习基础: 熟悉神经网络、反向传播、CNN（卷积神经网络）及常用框架（PyTorch/TensorFlow）。
强化学习（RL）入门: 掌握马尔可夫决策过程（MDP）、Q-learning、策略梯度等基本概念。
计算机视觉基础: 了解图像分类、目标检测、特征提取等任务及常用模型（如ResNet）。
可解释性概念: 初步理解模型可解释性的意义及常见方法（如注意力机制、可视化）。

学习时间: 4-6周

学习资源:

书籍: 《深度学习》（Goodfellow等）、《强化学习》（Sutton & Barto）
课程: 斯坦福CS231n（计算机视觉）、David Silver的强化学习课程
论文: “Visualizing and Understanding Convolutional Networks”（Zeiler & Fergus, 2014）

学习建议: 优先掌握深度学习和强化学习的核心概念，通过实践项目（如用PyTorch实现简单的CNN或Q-learning）巩固基础。可解释性部分可先通过综述论文建立宏观认识。

阶段 2：细粒度视觉推理与中间奖励机制

学习内容:

细粒度视觉分类（FGVC）: 学习如何区分相似子类别（如不同鸟类品种），掌握注意力机制在细粒度任务中的应用。
视觉推理: 理解如何结合视觉特征与逻辑推理（如VQA、视觉推理任务），学习图神经网络（GNN）在推理中的作用。
中间奖励设计: 探索RL中非稀疏奖励的设置，如基于任务进展的奖励塑形（Reward Shaping）或层次化奖励。
可解释性技术: 深入学习注意力可视化、决策路径解释等方法。

学习时间: 6-8周

学习资源:

论文: “Bilinear CNN Models for Fine-Grained Visual Recognition”（Lin et al., 2015）、“Learning to Reason: End-to-End Module Networks for Visual Question Answering”（Hu et al., 2017）
工具: FGVC常用数据集（CUB-200、Stanford Dogs）、OpenAI Gym环境定制
课程: MIT的"Advances in Computer Vision"课程（关注细粒度与推理部分）

学习建议: 尝试复现FGVC或视觉推理的简单模型，结合中间奖励机制设计小型RL实验（如用奖励塑形加速训练）。关注可解释性方法在模型调试中的应用。

阶段 3：TaxonRL模型与论文精读

学习内容:

TaxonRL核心思想: 理解如何通过分类学层次结构设计中间奖励，实现可解释的细粒度推理。
模型架构: 学习其结合CNN特征提取、层次化策略网络与奖励设计的具体实现。
实验设计: 分析论文中的消融实验、对比实验及评估指标（如准确率、可解释性量化）。
代码实现: 研究TaxonRL的开源代码（若有），或尝试复现核心模块。

学习时间: 8-10周

学习资源:

论文: 《TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning》（精读全文及附录）
代码: GitHub上相关项目（如细粒度分类或RL环境定制代码）
工具: Weights & Biases（实验跟踪）、Captum（可解释性分析库）

学习建议: 逐节拆解论文，绘制模型架构图和奖励计算流程。尝试在简化数据集（如MNIST子类）上复现核心逻辑，重点关注中间奖励如何引导策略学习。

阶段 4：进阶应用与研究方向

学习内容:

扩展到其他任务: 探索TaxonRL思想在医学影像、遥感图像等领域的细粒度分析应用。
改进与优化: 研究如何优化层次化奖励设计、结合预训练模型（如ViT）或引入元学习。
前沿交叉: 结合因果推断、神经符号推理等提升可解释性。
学术写作: 学习如何系统化呈现方法、实验与结论。

学习时间: 持续学习

学习资源:

顶会论文: CVPR、ICCV、NeurIPS中关于细粒度视觉、RL可解释性的最新研究
项目: Kaggle细粒度分类竞赛、OpenAI Gym自定义环境开发
社区: Papers with Code（跟踪SOTA模型）、Reddit的r/MachineLearning

学习建议: 基于TaxonRL框架提出改进点，设计小型实验验证。关注领域内顶级会议的work-in-progress论文，参与学术讨论以获取灵感。尝试将方法应用到实际问题中（如工业质检中的缺陷分类）。

常见问题

TaxonRL 主要解决什么核心问题？

TaxonRL 主要旨在解决细粒度视觉分类任务中，特别是在缺乏人工标注（如边界框、部位注释）的情况下，如何实现可解释性推理的问题。传统的细粒度分类方法通常依赖大量人工标注来定位关键的判别性部位，而 TaxonRL 利用强化学习，通过设计一种包含中间奖励的机制，引导模型自动定位最具区分度的区域，从而在不需要大量人工标注的情况下，实现既准确又具有可解释性的视觉推理。

论文中提到的“中间奖励”机制是如何工作的？

在传统的强化学习中，智能体通常只有在任务完全完成（例如分类正确）时才能获得奖励，这导致在长序列决策中反馈信号稀疏，训练困难。TaxonRL 引入了中间奖励机制，将推理过程分解为多个步骤（例如定位不同的局部区域）。在每一个步骤，智能体都会根据当前动作的质量（例如是否关注到了与分类相关的特征）获得即时的反馈。这种机制能够更有效地引导智能体的搜索策略，加速收敛，并提高定位关键区域的准确性。

TaxonRL 与传统的基于注意力机制的细粒度分类方法有何区别？

传统方法通常使用端到端的卷积神经网络（CNN）配合注意力模块来提取特征，虽然能提取特征，但往往缺乏明确的推理步骤和可解释性，且通常需要大量部位标注进行监督。相比之下，TaxonRL 将分类过程建模为一个序列决策过程。它不仅仅是“看”图片，而是模拟了一个类似人类的推理过程（例如先看头部，再看翅膀）。这种方法不仅提供了分类结果，还能通过策略轨迹展示模型是“如何”一步步做出决策的，因此具有更强的可解释性，且减少了对强监督信号的依赖。

该方法对训练数据有什么特殊要求？是否必须需要边界框标注？

TaxonRL 的一个主要优势在于它不需要边界框或部位级别的强监督标注。它只需要图像级别的类别标签进行训练。通过引入分类器网络作为判别器来评估当前关注区域的价值，TaxonRL 能够在只有弱监督（图像级标签）的情况下，学习到定位关键部位的能力。这使得该方法可以应用于那些只有简单标签但难以获取详细部位标注的大规模细粒度数据集。

TaxonRL 中的“可解释性”具体体现在哪里？

TaxonRL 的可解释性体现在其生成的视觉推理路径上。由于模型采用强化学习逐步选择观察的区域，我们可以可视化智能体在每一时刻关注的图像区域（即 Agent 的视线移动轨迹）。这条轨迹展示了模型是如何从背景中筛选出目标，并依次检查不同的判别性部位（如鸟的喙、爪等）最终得出结论的。这种逐步推理的过程比单纯的深度特征图更直观，更符合人类的认知逻辑。

该方法在计算效率上表现如何？

虽然强化学习通常涉及大量的交互探索，可能导致训练时间较长，但 TaxonRL 通过引入中间奖励和高效的策略网络设计，旨在优化这一过程。在推理阶段，相比于需要对整张图进行密集计算的传统方法，TaxonRL 往往可以通过关注少量关键区域来做出决策，这在一定程度上可以减少不必要的计算量。然而，具体的效率优势取决于策略网络的设计和搜索步数的设定，论文中通常会通过实验对比其在准确率和计算成本之间的权衡。

TaxonRL 可以应用于哪些具体的视觉任务场景？

TaxonRL 主要针对细粒度视觉分类任务，例如：

鸟类识别（CUB 数据集）：区分不同种类的鸟类。
狗的品种识别（Stanford Dogs 数据集）。
汽车/飞机型号识别（Stanford Cars, FGVC-Aircraft）。此外，由于其具备可解释性和定位能力，它也适用于任何需要理解物体局部细节且缺乏详细标注的视觉识别场景，例如医学图像分析或复杂的工业缺陷检测。

引用

ArXiv: http://arxiv.org/abs/2603.04380v1
PDF: https://arxiv.org/pdf/2603.04380v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 大模型
标签： TaxonRL / 强化学习 / 细粒度视觉推理 / 可解释性 / 中间奖励 / 分层预测 / 多模态 / 计算机视觉
场景： Web应用开发

TaxonRL：基于中间奖励的可解释细粒度视觉推理