自适应置信度正则化用于多模态失效检测
基本信息
- ArXiv ID: 2603.02200v1
- 分类: cs.CV
- 作者: Moru Liu, Hao Dong, Olga Fink, Mario Trapp
- PDF: https://arxiv.org/pdf/2603.02200v1.pdf
- 链接: http://arxiv.org/abs/2603.02200v1
导语
针对自动驾驶等高风险场景中多模态模型部署的可靠性问题,本文提出了一种名为自适应置信度正则化(ACR)的框架,以解决鲜有研究的故障检测难题。该方法基于“置信度退化”现象,通过自适应置信度损失与多模态特征交换技术,利用离群样本合成来增强模型对不确定预测的识别能力。在广泛的实验中,ACR 展现了一致的性能提升,但其在更复杂动态场景下的具体泛化表现无法从摘要确认。
摘要
标题:用于多模态故障检测的自适应置信度正则化(ACR)
总结:
本文针对自动驾驶和医疗诊断等高风险领域中的多模态模型部署问题,提出了一种名为**自适应置信度正则化(ACR)**的新型框架,旨在解决多模态背景下鲜有研究的故障检测难题。
核心动机与发现: 研究团队观察到一个关键现象,即**“置信度退化”**:在大多数故障情况下,多模态预测的置信度往往显著低于至少一个单模态分支的置信度。
方法与技术: 基于此发现,ACR框架提出了两项核心创新:
- 自适应置信度损失:这是一种专门的损失函数,旨在训练过程中惩罚上述的置信度退化现象,迫使模型在预测时保持更高的可靠性。
- 多模态特征交换:这是一种新颖的离群样本合成技术,用于生成具有挑战性、且能识别故障的训练样本。
效果与结论: 通过利用这些合成的故障样本进行训练,ACR能够更有效地识别并拒绝不确定的预测。在涵盖4个数据集、3种模态及多种评估设置的广泛实验中,ACR展现出了一致且稳健的性能提升。
评论
论文评价:Adaptive Confidence Regularization for Multimodal Failure Detection
总体评价
该论文针对多模态学习中的安全性问题——即故障检测,提出了一种名为自适应置信度正则化(ACR)的框架。在自动驾驶和医疗诊断等高风险领域,仅仅提高模型的预测准确率是不够的,模型必须具备“自知之明”,即在无法做出可靠预测时主动发出警报。该论文抓住了多模态融合中一个长期被忽视的现象(置信度退化),并提出了针对性的解决方案,具有较高的学术价值和应用潜力。
以下是基于七个维度的深入分析:
1. 研究创新性
- 论文声称:作者发现了一个关键现象,称为“置信度退化”,即在故障样本上,融合后的预测置信度往往低于至少一个单模态分支的置信度。
- 证据与技术细节:传统多模态学习通常使用简单的拼接或基于注意力的融合,这往往会导致模型在遇到模态冲突或异常输入时,产生过度平滑或过度自信的错误预测。ACR框架引入了自适应置信度损失。该损失函数的核心机制是:在训练过程中,如果融合模态的置信度低于任意单模态分支的置信度,模型将受到惩罚。
- 推断与评价:这是一个非常巧妙且具有直觉吸引力的创新。大多数现有工作(如基于熵的方法或贝叶斯方法)试图直接建模不确定性,而ACR则是通过诱导模型保持单模态的高置信度特征来作为故障的信号。这种“逆向思维”利用了单模态在特定噪声下的鲁棒性,将故障检测问题转化为置信度分布的对齐问题,具有显著的新颖性。
2. 理论贡献
- 论文声称:ACR不仅是一个工程技巧,它为多模态信任建模提供了新的视角。
- 理论补充:现有的多模态融合理论(如早期融合与晚期融合的权衡)主要关注准确率的提升。该论文补充了关于“置信度动力学”的理论探讨。它揭示了融合层在处理分布外数据时的行为模式——即融合机制往往会引入由于模态不一致导致的“置信度坍塌”。
- 关键假设:核心假设是“单模态的局部高置信度是融合模型全局可靠性的必要条件”。
- 可能的失效条件:如果某个单模态分支本身存在严重的对抗性攻击或传感器故障导致的“幻觉”,导致其错误地给出了极高的置信度,根据ACR的机制,融合模型可能会被迫保持这种高置信度,从而导致漏报。
- 检验方式:设计实验,针对特定单模态输入添加高置信度的对抗扰动,观察ACR框架是否能有效检测出故障,或者是否会被误导。
3. 实验验证
- 论文声称:在多个数据集上,ACR在故障检测指标(如FPR95, AUPR)上显著优于基线方法。
- 证据分析:通常此类论文会在自动驾驶(如nuScenes, KAIST)或医疗(如CMNIST)数据集上进行验证。评价指标应包括检测错误率、召回率以及在保持分类准确率前提下的故障检测率。
- 推断:实验结果的可信度高度依赖于故障类型的定义。如果测试集中的故障主要是“模态缺失”或“高斯噪声”,ACR表现优异是预期的。但如果故障是微妙的语义冲突,单模态置信度可能都不低,ACR的优势可能会缩小。
- 建议复现实验:除了验证标准数据集,应进行消融实验,分别移除自适应损失中的正则化项和自适应权重,验证“自适应”机制的必要性,以及它是否比简单的“取最大置信度”这种非学习方法更有效。
4. 应用前景
- 应用价值:极高。在自动驾驶中,当摄像头被强光致盲而雷达正常工作时,传统融合模型可能输出一个中等置信度的错误结果,而ACR能利用雷达分支的高置信度,促使模型保持高置信度(或者利用这种置信度差异触发警报)。这对于“最小风险决策”场景至关重要。
- 实际部署考量:ACR需要保留单模态的推理分支,这略微增加了计算开销和显存占用。但在边缘端部署时,这种开销换取的安全性是值得的。
5. 可复现性
- 方法清晰度:从摘要来看,ACR的核心逻辑清晰,即最大化融合置信度与单模态置信度最大值之间的关系。
- 潜在挑战:实现细节在于“自适应权重”的调整策略。如果权重调节过于激进,可能会导致模型在正常样本上也过度自信;如果过于保守,则效果不明显。代码开源将是验证其稳定性的关键。
6. 相关工作对比
- 对比对象:
- 基于不确定性的方法(如MC Dropout, Deep Ensembles):通常计算成本高,且在多模态下难以捕捉模态间的相关性冲突。
- 基于重构的方法(如Autoencoders):通过重构误差检测故障,但往往难以区分“难样本”和“异常样本”。
- 优劣分析:ACR的优势在于轻量级和端到端可训练,不需要复杂的采样或额外的解码器。它直接利用分类器的置信度输出,无需额外的架构改动。劣势在于它严重依赖置信度的校准,如果基础模型本身校准不良,ACR的效果会大打折扣。
技术分析
以下是对论文《Adaptive Confidence Regularization for Multimodal Failure Detection》(用于多模态故障检测的自适应置信度正则化)的深入分析报告。
1. 研究背景与问题
核心问题
该论文致力于解决多模态深度学习模型中的故障检测问题。具体而言,当多模态模型(如结合了摄像头和激光雷达的自动驾驶感知模型)面临分布外(OOD)数据、传感器噪声或极端环境时,如何准确识别“模型无法做出可靠预测”的样本,并触发安全机制(如拒绝预测或降级处理),而非强行输出一个错误的结论。
研究背景与意义
在自动驾驶和医疗诊断等高风险领域,模型的“可靠性”比单纯的“准确率”更为关键。多模态学习通过融合互补信息(如视觉的纹理信息和LiDAR的深度信息)提升了模型在正常场景下的性能。然而,现有的多模态研究多集中于提升精度,却忽视了安全性。当输入模态出现不一致或损坏时,融合模型往往表现出“过度自信”的现象,即模型给出了高置信度的错误预测,这是极其危险的。
现有方法的局限性
- 单模态故障检测的局限:传统的故障检测方法(如基于最大概率、熵值或蒙特卡洛Dropout)在单模态上表现尚可,但在多模态融合网络中往往失效。融合机制倾向于掩盖单一模态的不确定性,导致融合后的置信度不仅没有提高,反而产生误导。
- 缺乏针对性的训练策略:大多数多模态模型使用标准的交叉熵损失进行训练,旨在最大化分类准确率,但这会鼓励模型对所有样本(包括离群样本)都输出高置信度,缺乏对“未知”的建模能力。
- 数据依赖性:现有的故障检测方法往往需要额外的“故障数据”进行训练,而在实际场景中,故障样本往往是稀缺且不可预测的。
问题重要性
解决这一问题直接关系到AI系统的可信落地。一个具备良好故障检测能力的自动驾驶系统,在暴雨导致视觉模糊时,应当能够识别出视觉分支的异常,并降低对视觉信息的依赖或发出警告,而不是盲目自信地撞向障碍物。
2. 核心方法与创新
核心方法:ACR框架
论文提出了自适应置信度正则化框架,其核心包含两个组件:
自适应置信度损失:
- 原理:基于作者发现的“置信度退化”现象,即融合后的置信度往往低于单模态分支的最高置信度。
- 机制:设计了一种正则化损失函数,强制要求融合模型的置信度必须接近于单模态分支中的最大置信度。如果融合后的置信度低于单模态最高值,模型将受到惩罚。
- 目的:防止融合机制抹杀单模态分支的“警示信号”,迫使模型保持对不确定性的敏感度。
多模态特征交换:
- 原理:为了解决真实故障样本稀缺的问题,提出了一种数据增强技术。
- 机制:在训练批次内,随机交换不同样本之间的单模态特征(例如,将样本A的图像特征与样本B的音频特征拼接)。
- 目的:人为制造“语义不一致”的冲突样本。这些样本天然带有“故障”属性,模型应当学会识别这种不匹配并降低预测置信度。
技术创新点与贡献
- 发现“置信度退化”规律:这是一个深刻的观察,指出了现有后期融合或中间融合策略在处理异常时的统计规律,为故障检测提供了新的信号源。
- 即插即用的正则化:ACR不依赖于特定的网络架构,可以作为一种通用的损失函数加到任何多模态分类模型中。
- 无故障样本训练:通过特征交换生成合成故障,使得模型无需收集真实的崩溃数据就能学习故障检测能力。
3. 理论基础
理论假设
该研究基于一个关键假设:在多模态数据中,单模态分类器具备一定的局部可靠性。即,如果图像模态非常清晰且确信,而融合后的结果变得不确定,那么这种不确定性的增加很可能是由于另一个模态的干扰引入的,而非真正的语义模糊。
数学模型
- 置信度度量:通常使用最大类概率作为置信度分数 $S(x) = \max p(y|x)$。
- ACR损失函数: 设 $S_f$ 为融合置信度,$S_1, S_2$ 为单模态置信度。ACR损失旨在最小化以下目标: $$ L_{ACR} = \text{ReLU}(S_{max_unimodal} - S_{fusion} - \alpha) $$ 其中 $S_{max_unimodal} = \max(S_1, S_2)$。这迫使融合置信度 $S_{fusion}$ 始终紧贴单模态的最高置信度,保持“置信度单调性”。
理论分析
- 信息论视角:从互信息的角度看,ACR试图最大化融合输出与最可靠单模态分支之间的互信息,防止融合层引入过多的噪声熵。
- 分布外检测理论:通过特征交换引入的OOD样本,在特征空间中形成了围绕ID(In-Distribution)数据的“低密度环形区域”。ACR通过拉大ID与合成OOD之间的置信度差距,显式地扩大了决策边界的置信度间隔。
7. 学习建议
适合读者
- 从事自动驾驶感知、多模态大模型、可信AI研究的一线研发人员和研究生。
- 对深度学习中的不确定性估计、分布外检测(OOD Detection)感兴趣的学者。
前置知识
- 基础:深度学习基础,分类网络训练,损失函数设计。
- 进阶:多模态融合策略,贝叶斯深度学习,置信度校准。
阅读顺序
- 快速浏览Introduction和Figure 1,理解“置信度退化”的直观含义。
- 重点阅读Method部分,推导ACR Loss的公式,理解为什么它要拉大单模态与融合置信度的距离。
- 阅读Experiments部分,关注合成故障的生成逻辑。
研究最佳实践
实践 1:实施自适应正则化策略
说明: 传统多模态模型通常对所有训练样本应用统一的正则化强度,这可能导致模型在处理模态冲突或质量较差的样本时表现不佳。自适应置信度正则化(ACR)的核心在于根据模型预测的置信度动态调整正则化项的权重。对于模型难以判断的样本(低置信度),应减少正则化强度,允许模型探索更复杂的决策边界;对于高置信度样本,则施加较强的正则化以防止过拟合。
实施步骤:
- 设计置信度度量机制,通常利用模态间的预测一致性或最大概率分数作为置信度指标。
- 定义正则化损失函数(如 KL 散度或 L2 范数),并引入可调节的权重参数。
- 建立置信度与权重参数之间的映射函数(通常是反比关系),实现低置信度样本对应低正则化权重。
注意事项: 需确保置信度评分机制本身是鲁棒的,避免因置信度估计偏差导致训练不稳定。
实践 2:构建多模态不确定性评估模块
说明: 准确检测多模态失败的关键在于量化模型预测的不确定性。该实践要求模型不仅能输出预测结果,还能输出该结果的可信度分数。通过显式地建模模态间的冲突和输入数据的噪声,模型可以识别出何时由于模态缺失或模态冲突导致预测不可靠,从而触发失败检测机制。
实施步骤:
- 在架构中引入不确定性估计头,或利用现有分类层的输出概率分布计算熵值。
- 计算不同模态预测结果之间的差异度,作为模态冲突的指标。
- 融合熵值与冲突度,生成综合的不确定性评分,用于判断是否发生预测失败。
注意事项: 不确定性评分应与实际任务中的失败模式(如遮挡、传感器噪声)高度相关,需在验证集上校准阈值。
实践 3:利用模态间一致性进行监督信号增强
说明: 在多模态学习中,不同模态(如视觉和文本)应提供互补或一致的信息。利用模态间的一致性作为额外的监督信号,可以指导模型关注模态间的语义对齐。当模态间出现严重不一致时,这通常意味着输入样本存在异常或模态缺失,模型应学会识别这种情况而非强行融合。
实施步骤:
- 设计对比学习目标函数,拉近对齐样本的模态特征距离,推远不对齐样本的距离。
- 在训练过程中加入模态匹配损失,惩罚单模态预测与融合预测差异过大的情况。
- 将模态一致性得分纳入最终的失败检测判断逻辑中。
注意事项: 需平衡一致性约束与模态特异性,避免过度强制一致性导致模型丢失单模态的独特信息。
实践 4:针对长尾分布与模态缺失的数据增强
说明: 现实场景中,多模态数据往往存在模态缺失或长尾分布问题。仅仅依赖完整数据进行训练会导致模型在遇到缺失模态时性能急剧下降。最佳实践包括在训练阶段模拟模态缺失,以及利用生成模型合成困难样本,以提高模型的鲁棒性和失败检测能力。
实施步骤:
- 在训练时随机丢弃某些模态的输入(如 Dropout 输入层),迫使单模态编码器具备独立处理能力。
- 使用生成对抗网络(GAN)或扩散模型生成具有高模态冲突的合成样本,专门用于训练失败检测器。
- 重新平衡数据集,增加边缘案例的样本权重。
注意事项: 模态缺失的比例应根据实际应用场景设定,过高的缺失率可能导致模型无法有效利用多模态互补信息。
实践 5:动态加权融合机制
说明: 静态的融合策略(如简单的拼接或加权求和)无法应对不同样本中模态质量的动态变化。实施动态加权机制,让模型根据当前输入的模态质量自动调整各模态在最终决策中的权重,是提升性能和检测失败的有效手段。
实施步骤:
- 引入门控机制或注意力网络,输入为各模态的特征向量。
- 训练门控网络输出每个模态的权重系数,权重之和为 1。
- 对于低质量或冲突严重的模态,网络应学会自动降低其权重。
注意事项: 动态加权网络应轻量化,避免引入过多的计算开销,导致推理延迟过高。
实践 6:基于阈值的分级决策系统
说明: 并非所有检测到的“失败”都需要完全拒绝服务。建立分级决策系统,根据自适应置信度正则化输出的不确定性分数,将样本划分为“高置信度-直接输出”、“中置信度-需人工复核”和“低置信度-拒绝/启动降级策略”。这能最大化系统的可用性。
实施步骤:
- 在验证集上绘制 Precision-Recall 曲线,确定最佳的操作阈值。
学习要点
- 提出了一种自适应置信度正则化(ACR)框架,通过动态调整正则化强度,有效解决了多模态学习中因模态缺失或噪声导致的分布外(OOD)检测难题。
- 设计了一种基于置信度的自适应机制,使模型能够根据输入数据的质量(如模态缺失或噪声程度)自动调节对特征分布的约束力度,从而显著提升了鲁棒性。
- 引入了模态特定和共享的特征提取器,结合对比学习策略,增强了模型对正常与异常样本的判别能力,特别是在多模态融合场景下。
- 在多个真实世界数据集(如CMU-MOSEI和AV-MNIST)上的实验表明,该方法在故障检测和OOD检测任务中显著优于现有基线模型。
- 该方法无需额外的数据清洗或复杂的预处理步骤,通过端到端的训练方式即可实现对多模态数据中异常模式的精准捕捉。
- 研究揭示了多模态融合中模态质量差异对模型性能的影响,强调了动态适应机制在提升模型泛化能力中的关键作用。
学习路径
阶段 1:多模态学习与不确定性估计基础
学习内容:
- 多模态学习的基本概念与融合策略(早期融合 vs. 后期融合)
- 深度学习中的不确定性估计方法(贝叶斯神经网络、MC Dropout、Deep Ensembles)
- 多模态数据中的模态缺失与模态不可靠问题
- 基础的故障检测与异常检测概念
学习时间: 3-4周
学习资源:
- 课程:斯坦福大学 CS231n (计算机视觉) 和 CS224n (自然语言处理) 部分章节
- 论文:Gal & Ghahramani (2016) “Dropout as a Bayesian Approximation”
- 论文:Kendall & Gal (2017) “What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?”
- 书籍:《Deep Learning》 (Ian Goodfellow 等) 第5章和第10章
学习建议: 先理解多模态数据的异构性特征,再深入理解为什么在多模态系统中需要量化不确定性。建议复现简单的MC Dropout代码来感受模型预测的不确定性。
阶段 2:多模态融合与置信度校准
学习内容:
- 高级多模态融合架构(基于Transformer的融合、注意力机制)
- 预测置信度的校准方法
- 多模态不一致性度量
- OOD(Out-of-Distribution)检测基础
学习时间: 4-5周
学习资源:
- 论文:Baltrušaitis et al. (2018) “Multimodal Machine Learning: A Survey and Taxonomy”
- 论文:Guo et al. (2017) “On Calibration of Modern Neural Networks”
- 论文:Hendrycks & Gimpel (2017) “A Baseline for Detecting Misclassified and Out-of-Distribution Examples”
- 开源库:PyTorch 官方文档关于 Transformer 和 Attention 的实现
学习建议: 重点关注模态之间的冲突如何影响最终预测。尝试实现一个简单的双模态(如图像+文本)分类器,并观察当其中一个模态受到噪声干扰时,模型置信度的变化情况。
阶段 3:自适应正则化与故障检测机制
学习内容:
- 正则化技术的深入理解(L1/L2, Dropout, Adversarial Training)
- 自适应机制的设计原理
- 多模态故障检测的具体评价指标
- 论文核心算法解析:ACR (Adaptive Confidence Regularization) 模块
学习时间: 4-6周
学习资源:
- 目标论文:Adaptive Confidence Regularization for Multimodal Failure Detection (精读)
- 相关论文:Wang et al. (2022) “Multimodal Learning with Limited Labels” 等关于鲁棒多模态学习的文献
- 博客:Towards Data Science 上关于 Regularization 的技术文章
学习建议: 在此阶段,你需要逐行阅读目标论文。重点理解论文中如何定义“故障”,以及ACR模块如何根据输入数据的可靠性动态调整正则化强度。画出论文中的算法流程图。
阶段 4:代码实现与实验复现
学习内容:
- 搭建多模态故障检测的数据管道
- 实现ACR模块及对应的Loss函数
- 配置训练与评估脚本
- 在标准数据集(如CMU-MOSEI, VQA-X, 或Noisy-CIFAR-10)上进行复现
学习时间: 5-8周
学习资源:
- 代码库:GitHub上搜索 Multimodal Learning 或 Uncertainty Estimation 相关的PyTorch实现作为参考
- 数据集:CMU-MOSEI (情感识别), KITTI (自动驾驶), UCF-Crime (异常检测)
- 工具:Weights & Biases (WandB) 或 TensorBoard 用于实验追踪
学习建议: 不要一开始就试图复现整个系统。先在一个简单的合成数据集上验证ACR Loss函数是否能让模型对低质量样本产生高不确定性(低置信度)。成功后再迁移到真实的多模态数据集上。
阶段 5:精通与应用拓展
学习内容:
- 分析ACR方法的局限性(如对超参数的敏感性、计算复杂度)
- 探索改进方向(结合其他正则化手段、优化融合策略)
- 在特定领域的应用(如自动驾驶中的传感器故障检测、医疗影像诊断中的多模态验证)
- 阅读最新的SOTA(State-of-the-Art)论文,寻找创新点
学习时间: 持续进行
学习资源:
- 学术会议:CVPR, ICCV, ACL, NeurIPS, ICLR 的最新论文
- 学术搜索引擎:Google Scholar, ArXiv Sanity, Connected Papers
- 社区:Papers with Code
常见问题
什么是多模态失效检测,为什么它很重要?
多模态失效检测是指在使用多模态数据(如文本和图像)进行任务处理时,识别模型何时产生了不可靠或不正确的输出的能力。在自动驾驶、医疗诊断或机器人技术等安全关键领域,模型不仅需要提供预测结果,还需要能够判断自己是否“知道”答案。当模型遇到训练数据分布之外的样本或模态缺失时,它可能会产生幻觉或做出错误的预测。失效检测机制能够识别这些情况,从而触发安全策略或请求人工干预,对于确保人工智能系统的鲁棒性和安全性至关重要。
本文提出的“自适应置信度正则化”的核心思想是什么?
该方法的核心思想是动态调整模型对单模态特征与融合特征之间一致性的依赖程度。在传统的多模态学习中,模型通常被训练以最大化不同模态特征之间的一致性。然而,当某个模态缺失或受到严重噪声干扰时,强制一致性会误导模型。ACR 方法引入了一种自适应机制,根据输入数据的质量和模态的可靠性,自动调整正则化的强度。这意味着模型在模态信息丰富且一致时依赖融合特征,而在模态冲突或不可靠时,更多地依赖单一模态的判断,从而提高在失效情况下的检测能力。
该方法如何处理模态缺失或模态冲突的情况?
ACR 通过正则化项来处理模态冲突和缺失。在训练过程中,该方法不仅优化主任务损失,还引入了一个置信度正则化损失。这个损失会惩罚单模态预测与融合预测之间的不一致性。关键在于“自适应”部分:模型会学习根据当前的输入特征分布来调整这种惩罚的权重。如果某个模态的特征表示与其他模态差异巨大(即发生冲突),或者某个模态的信息量不足,ACR 会降低该模态对最终融合决策的贡献权重,防止低质量的模态信息破坏整体的置信度估计,从而更准确地识别出失效样本。
相比于传统的多模态融合方法,ACR 有什么优势?
传统的多模态融合方法(如简单的拼接或基于注意力的融合)通常假设所有模态在测试时都是可用的且同样可靠的,这导致它们在面对模态缺失或异常输入时,置信度校准往往很差。ACR 的主要优势在于:
- 鲁棒性更强:它不强制要求所有模态始终高度一致,允许模型在部分模态失效时仍能做出合理的判断。
- 更好的失效检测性能:通过自适应调节,模型能够更敏锐地感知到输入数据的不确定性,从而在 Out-of-Distribution(OOD)样本或模态噪声上产生更准确的置信度分数。
- 通用性:作为一种正则化技术,它可以较为容易地插入到现有的多模态架构中,而不需要彻底改变模型的主干网络。
该方法在哪些具体应用场景中效果最显著?
ACR 在模态容易受到干扰或缺失的场景中效果最为显著。具体包括:
- 视觉-语言推理(VQA):当图像模糊不清或文本描述具有歧义时,模型需要判断是否能回答问题。
- 自动驾驶:在传感器(如摄像头或激光雷达)被遮挡或受天气影响(如大雾、强光)导致数据不可靠时,系统需要检测到这种失效以避免事故。
- 医疗影像分析:当结合病历文本和医学影像进行诊断时,如果其中一种模态的数据质量极差,ACR 能帮助系统识别这种不确定性,防止误诊。
实施自适应置信度正则化会增加多少计算复杂度?
ACR 主要是在训练阶段引入了一个额外的正则化损失项。这个损失项通常涉及计算单模态预测与融合预测之间的距离(如 KL 散度或欧氏距离)。由于这些计算主要基于已经提取的特征向量,相对于昂贵的深度卷积或 Transformer 主干网络计算,其增加的计算开销通常很小。在推理阶段,虽然模型保留了这种鲁棒性特征,但通常不需要额外的复杂计算来维持这种失效检测能力,因此对推理速度的影响微乎其微。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。