Mine and Refine：优化电商搜索检索中的分级相关性

基本信息

ArXiv ID: 2602.17654v1
分类: cs.IR
作者: Jiaqi Xi, Raghav Saboo, Luming Chen, Martin Wang, Sudeep Das
PDF: https://arxiv.org/pdf/2602.17654v1.pdf
链接: http://arxiv.org/abs/2602.17654v1

导语

针对大规模电商搜索中长尾查询难以有效匹配的挑战，本文提出了一种名为“Mine & Refine”的两阶段对比训练框架，旨在通过挖掘与精炼数据优化语义文本嵌入模型的多级排序能力。该方法通过改进训练策略提升了模型在复杂场景下的检索表现，但具体技术细节无法从摘要确认。这一研究为改善电商搜索系统的相关性提供了新的优化思路。

摘要

本文介绍了一种名为 “挖掘与精炼” 的两阶段对比训练框架，旨在优化语义文本嵌入模型，以提升多类别电商搜索检索的效果。以下是核心内容的总结：

1. 背景与挑战 大规模电商搜索需要嵌入模型既能泛化处理长尾和嘈杂的查询，又要符合可扩展的产品与政策约束。实际业务中的核心挑战在于相关性的分级特性：用户不仅接受精确匹配，也接受替代品或互补品。生产系统需要模型能在不同相关性层级间建立清晰的分数界限，以实现稳定的混合检索和阈值截断。

2. 解决方案 作者提出了“挖掘与精炼”的两阶段框架：

监督数据构建：利用轻量级大语言模型（LLM）基于人工标注的三级相关性指南进行微调，生成符合政策的一致性监督数据，并通过用户参与度审计进一步减少噪声。
阶段一（Mine - 挖掘/训练）：训练一个多语言的孪生双塔检索器，采用标签感知的监督对比目标，构建一个鲁棒的全局语义空间。
阶段二（Refine - 精炼/优化）：
- 利用近似最近邻（ANN）挖掘困难样本，并通过符合政策的LLM重新标注。
- 引入Circle Loss的多类扩展，显式地锐化不同相关性等级之间的相似度边界，从而进一步精炼和丰富嵌入空间。

3. 鲁棒性增强 通过加性拼写增强和合成查询生成技术，进一步提高模型的鲁棒性。

4. 结果 广泛的离线评估和生产环境A/B测试表明，该框架不仅提高了检索相关性，还在用户参与度和业务指标上带来了统计学显著的显著增益。

以下是对论文《Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval》的深度学术评价。该评价基于您提供的摘要及电商搜索检索领域的通用技术框架，针对论文的潜在逻辑与技术细节进行剖析。

《Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval》学术评价

1. 研究创新性

论文声称：提出了“挖掘与精炼”两阶段框架，利用轻量级LLM处理三级相关性，解决了大规模电商搜索中长尾查询与泛化能力不足的问题。
证据：文章采用LLM生成合成训练数据，并引入对比学习机制来区分精确匹配、替代品和互补品。
学术评价：该研究的创新性在于将生成式AI（LLM）的数据增强能力与判别式模型的检索能力进行了系统性的解耦与融合。
- 新发现：传统的双塔模型通常依赖点击日志（CTR），但这存在严重的偏差问题。本文通过引入LLM构建三级相关性标签，实际上是在探索一种**“语义感知的蒸馏”**路径。这发现了一个关键点：轻量级LLM足以理解电商领域的细微语义差别（如“Nike鞋”与“Adidas鞋”的替代关系），并能将这种理解迁移至嵌入模型。
- 方法创新：**“挖掘”阶段可能侧重于利用LLM从海量候选中挖掘出符合特定相关性等级的难负例；而“精炼”**阶段则侧重于通过对比学习拉大不同相关性等级间的分数间距。这种方法比传统的In-batch Negatives更能处理长尾分布。

2. 理论贡献

论文声称：模型能够建立清晰的分数界限，以支持混合检索和阈值截断。
推断：该工作试图在度量空间中构建一种序数回归的几何结构，而不仅仅是传统的点对排序。
学术评价：理论上，该文补充了稠密检索在多粒度相关性监督下的学习理论。标准的InfoNCE损失通常假设“相关”与“不相关”二元分布，忽略了“部分相关”的中间态。
- 突破：通过引入三级标签（Exact, Substitute, Complementary），论文实际上是在优化嵌入空间的局部流形结构。它强制模型在语义空间中，不仅要把正例拉近，还要把“近似负例”推到一个特定的距离范围内（即建立了清晰的分数界限）。这对于混合检索的理论基础尤为重要，因为它解决了稠密向量分数与稀疏BM25分数不可比的问题。

3. 实验验证

论文声称：在生产环境中验证了模型的有效性，提升了长尾查询和泛化能力。
潜在假设：离线评估指标（如NDCG, Recall@K）的提升与在线业务指标（如GMV, CTR）正相关；LLM生成的标签质量高于或等同于人工标注的一致性。
学术评价：
- 可靠性分析：如果实验仅展示了离线指标，其说服力有限。电商搜索的核心在于用户满意度，而不仅仅是检索召回率。例如，模型可能召回了很多“互补品”（如手机壳），但如果用户只想买“手机”，高召回反而可能降低体验。
- 关键检验方式：
  1. A/B测试对比：必须提供在线A/B测试数据，特别是关注转化率（CVR）和加购率的变化，而不仅仅是CTR。
  2. 长尾分布测试：专门针对低频查询设计测试集，验证LLM生成的合成数据是否真的缓解了数据稀疏问题，还是引入了噪声。
  3. 阈值稳定性分析：绘制不同相关性等级的分数分布直方图，验证是否真的出现了论文声称的“清晰界限”，还是存在严重的分布重叠。

4. 应用前景

推断：该框架旨在解决实际业务中的“可解释性”和“可控性”痛点。
学术评价：该研究具有极高的工业应用价值。
- 混合检索：在电商实践中，BM25（关键词）擅长精确匹配，Embedding（语义）擅长泛化。本文通过优化分数界限，使得Embedding模型可以更安全地参与最终排序，而不会因为分数异常波动破坏关键词匹配的稳定性。
- 业务规则对齐：通过引入“互补品”和“替代品”的显式监督，商家可以更灵活地控制搜索结果。例如，在库存不足时，可以通过调整模型权重增加“替代品”的召回，这在供应链管理中极具战略意义。

5. 可复现性

证据：使用轻量级LLM（如GPT-3.5-turbo或开源Llama系列）进行数据标注。
学术评价：
- 清晰度：两阶段框架逻辑清晰，但复现难点在于Prompt Engineering和数据清洗pipeline。LLM生成三级标签的质量高度依赖于Prompt的设计。如果论文未公开具体的Prompt模板和Few-shot示例，复现难度较大。
- 检验方式：复现实验应包含对LLM标注数据的一致性检验（Inter-annotator Agreement between LLM and Human）。如果LLM频繁混淆“替代品”和“互补品”，那么整个训练信号就是有噪声的

技术分析

技术分析报告：Mine and Refine —— 优化电商搜索检索中的分级相关性

1. 研究背景与问题

核心问题

本研究旨在解决大规模电商搜索系统中的一个技术难点：如何优化语义嵌入模型以适应“分级相关性”的判断标准，并在满足业务约束（如政策合规）的前提下提升长尾查询的召回效果。

现有挑战

在现代电商搜索架构中，双塔模型因其检索效率高而被广泛采用。然而，传统的检索训练往往将相关性视为二元问题（相关/不相关），或者仅依赖点击信号作为隐式反馈。这导致模型在实际应用中存在以下局限：

语义边界模糊：对于查询“iPhone”，既包含手机本身（精确匹配），也可能包含手机壳（互补品）或三星手机（替代品）。现有模型往往无法在嵌入空间中有效区分这些层级，导致检索分数界限不清。
长尾查询处理不足：电商查询中存在大量拼写错误、模糊描述或极低频的长尾词，基于预训练模型直接生成的嵌入往往泛化能力不足。
业务合规性要求：生成的训练数据必须符合平台政策（如不能推荐违禁品），单纯的自动化挖掘容易引入违规样本，增加了数据清洗的难度。

现有方法的局限性

二元对比学习的局限：标准的InfoNCE损失假设正样本相似度远高于负样本，但在多级相关性场景下（例如：精确匹配 vs. 替代品），简单的二元分类难以拉开分数差距，导致排序能力下降。
数据标注成本高：人工标注分级相关性数据成本高昂且难以扩展，而传统的弱监督（基于点击）噪声较大，存在数据偏差问题。

2. 核心方法与创新

核心方法：Mine and Refine 框架

论文提出了一种两阶段的对比训练框架，旨在构建一个既具有全局语义一致性，又具有精细分级判别能力的嵌入空间。

数据构建：
- 利用轻量级大语言模型（LLM），基于人工定义的三级相关性指南进行微调，生成合成训练数据。
- 引入用户参与度审计机制，过滤掉虽然语义相关但用户参与度低的噪声样本，以确保数据质量。
阶段一：Mine（挖掘与全局学习）：
- 目标：构建一个鲁棒的全局语义空间，解决长尾词和拼写错误问题。
- 策略：训练一个多语言的孪生网络。引入加性拼写增强和合成查询生成，提升模型对噪声的鲁棒性。
- 损失函数：使用标签感知的监督对比目标。不同于标准对比学习，该目标函数允许模型根据标签的相似度程度（如精确匹配与互补品）来调整嵌入距离。
阶段二：Refine（精炼与边界锐化）：
- 目标：锐化不同相关性等级之间的决策边界。
- 策略：利用近似最近邻（ANN）从全局空间中挖掘困难样本，并通过符合政策的LLM重新标注以确保质量。
- 核心机制：引入Circle Loss的多类扩展。Circle Loss 能够在相似度分数尺度上进行优化，促使正样本的相似度向1收敛，负样本向0收敛，从而在嵌入空间中形成清晰的层级边界。

技术创新点

LLM驱动的数据生成：将LLM作为数据增强器和标注器，而非直接作为检索器，解决了工业界数据质量和合规性的问题。
多级对比学习：将Circle Loss扩展至多级文本检索任务，解决了传统Softmax Loss在处理细粒度相似度时的梯度饱和问题。

3. 理论基础

理论假设

语义流形假设：在嵌入空间中，语义相关的文档应聚集在查询点周围，且距离应与相关性等级成正比。
噪声标签鲁棒性：通过LLM生成和用户行为审计，可以假设经过清洗后的伪标签具有足够高的置信度，可用于监督训练。

数学模型分析

论文的核心理论贡献在于对损失函数的设计：

标签感知对比损失：通过引入标签权重，允许模型在训练时区分不同级别的正样本（如精确匹配与互补品），从而在全局空间中保持语义的相对距离。
Circle Loss 扩展：通过优化相似度分数的梯度，使得模型能够更清晰地将不同相关性的样本在向量空间中分离，特别是在处理困难负样本时表现更为稳定。

研究最佳实践

最佳实践指南

实践 1：构建细粒度的多级相关性标注体系

说明: 传统的二元相关性标注（相关/不相关）无法捕捉电商搜索中商品匹配程度的细微差异。该实践要求建立分级标准（如 0-3 分或 NDCG 评级），区分“完美匹配”、“功能替代”、“部分相关”和“不相关”。例如，用户搜索“iPhone 13 手机壳”，完全匹配的 iPhone 13 外壳应得最高分，而通用的 iPhone 外壳或手机屏幕膜应得较低分数。

实施步骤:

定义相关性等级：建立包含 4-5 个等级的评分标准（例如：Exact, Substitute, Complement, Irrelevant）。
编写标注指南：为每个等级提供具体的电商场景示例，确保标注员理解什么是“可接受但非完美”的商品。
培训与校准：对标注团队进行培训，定期计算标注一致性（如 Kappa 值），确保团队对标准的理解统一。

注意事项: 避免标准过于复杂导致标注难以收敛，初期建议从 3 级或 4 级开始，而非过多的微分级。

实践 2：利用弱监督挖掘生成伪标签数据

说明: 人工构建大规模分级相关性数据成本高昂且不可持续。该实践建议利用现有的用户行为数据（如点击、购买、加购）作为弱监督信号，自动挖掘训练数据。通过规则或启发式算法，将高交互的商品标记为高相关性，低交互或未交互的商品标记为低相关性，从而低成本地扩展训练集。

实施步骤:

数据收集：整合搜索日志，提取 Query-Item 对及其对应的交互特征。
规则设计：制定启发式规则，例如“购买且无退货”标记为 4 分（完美匹配），“仅点击”标记为 2 分（部分相关），“曝光未点击”标记为 0 分。
数据清洗：过滤掉异常流量和噪声数据（如爬虫、误点击），确保伪标签的质量。

注意事项: 存在位置偏差，即排在前面的商品更容易被点击，需要引入偏差校正模型或随机抽样来缓解这一问题。

实践 3：实施“挖掘-精炼”迭代优化流程

说明: 模型训练不应是一次性的。应建立一个闭环系统，利用当前的模型对全量数据进行预测（挖掘），筛选出模型置信度高但与现有标签不一致的样本，交由人工进行复核（精炼）。这种主动学习的方式可以持续修正模型在边缘案例上的表现，不断提升模型对相关性边界的理解能力。

实施步骤:

模型预测：使用当前最优模型对候选数据集进行打分。
不确定性采样：筛选出模型预测分数处于临界值（如 2.0-2.5 分之间）或与用户行为反馈严重不符的样本。
人工复核：将筛选出的样本交给高级标注员进行精准判定。
模型重训：将新确认的高质量数据加入训练集，重新训练模型。

注意事项: 需平衡新数据与旧数据的比例，防止模型对最新的修正数据过拟合，导致在通用场景下性能下降。

实践 4：优化损失函数以适应分级相关性

说明: 标准的二元交叉熵损失函数忽略了不同等级之间的顺序关系（即 3 分比 1 分好，但 BCE Loss 可能只关注概率）。应采用基于排序或回归的损失函数，使模型能够学习到“高相关性商品得分应高于低相关性商品”的偏序关系。

实施步骤:

选择损失函数：优先考虑 ListWise 损失（如 LambdaRank）或基于回归的 MSE/Smooth L1 Loss，或者专门针对分级数据的 Cross-Entropy 变体。
调整样本权重：在训练时，给予高相关性商品和难分样本更高的权重。
离线评估：使用 NDCG (Normalized Discounted Cumulative Gain) 作为主要的离线评估指标，因为它能直接反映分级相关性模型的排序质量。

注意事项: 如果使用回归损失，要注意异常值的影响；如果使用排序损失，训练时间通常会比标准的分类损失更长。

实践 5：融合语义与行为特征以区分“意图”与“流行度”

说明: 仅依赖文本语义匹配容易导致“词不达意”，仅依赖行为数据容易导致“马太效应”（只推热销品）。最佳实践是在模型输入端同时融合 Query-Item 的语义向量（来自 BERT/Transformer）和统计特征（CTR/CVR）。语义特征用于理解“商品是否是用户想要的”，行为特征用于验证“商品是否真的受欢迎”。

实施步骤:

特征工程：提取文本匹配特征（如 BM25、文本相似度）、语义向量特征（如双塔模型的 Embedding 内积）以及统计特征（历史点击率、转化率）。
模型架构：

学习要点

提出了一种“挖掘与提炼”框架，通过在粗排阶段引入细粒度的多级相关性标签（如精确匹配、部分匹配等），解决了传统二分类标签导致的信息损失问题，显著提升了检索系统的召回质量。
设计了一种基于知识蒸馏的标签提炼机制，利用精排模型输出的软标签作为监督信号，有效缓解了训练数据中长尾商品标注稀疏和噪声问题。
在粗排模型训练中创新性地采用了多任务学习策略，同时优化分类（相关性等级）和回归（排序分值）目标，使模型能够更准确地捕捉用户偏好与商品匹配的细微差异。
证明了在电商搜索场景中，相较于传统的二元相关性，采用多级（如 4 级）相关性标签能更精准地反映商品与查询的匹配程度，从而带来线上业务指标的显著增长。
提出了一种针对大规模电商检索的负采样策略，通过在训练中增加困难负样本的比例，增强了模型的判别能力，有效减少了高相似度非相关商品的误召回。
实验证实了该框架在保持推理效率的同时，能够无缝适配现有的双塔模型架构，为工业级搜索系统的优化提供了一种低成本、高收益的解决方案。

学习路径

阶段 1：基础构建与背景认知

学习内容:

电商搜索系统的基本架构：理解 Query 理解、召回、排序、重排序等核心环节。
检索评价指标：深入掌握 NDCG (Normalized Discounted Cumulative Gain)、MAP (Mean Average Precision)、MRR (Mean Reciprocal Rank) 等指标，特别是“分级相关性”的概念。
机器学习基础：监督学习的基本流程，特征工程的重要性，以及损失函数的作用。
深度学习入门：神经网络基础，Embedding（嵌入）向量的概念，以及 Word2Vec 或 BERT 等预训练模型的基本原理。

学习时间: 3-4周

学习资源:

书籍：《推荐系统实践》、《深入理解搜索：原理、算法与工程实现》
论文：阅读经典 IR 论文，如 “Learning to Rank: From Pairwise Approach to Listwise Approach”
博客/文章：搜索与推荐系统相关的技术博客（如美团技术团队、阿里技术公众号的相关文章）

学习建议: 不要急于直接阅读 arxiv 上的前沿论文。先确保你理解了什么是“召回”以及为什么传统的召回方法（如简单的关键词匹配或双塔模型）在处理“多级相关性”时可能存在不足。重点理解 NDCG 这个指标，因为它是优化 Graded Relevance 的核心。

阶段 2：核心技术深入与检索优化

学习内容:

双塔模型：深入理解双塔模型在检索中的应用，包括 User Tower 和 Item Tower 的设计。
损失函数设计：这是本阶段重点。学习如何将排序指标（如 NDCG）转化为可微的损失函数，例如 Listwise Loss 和 Pairwise Loss 的区别与联系。
难负样本挖掘：理解 Hard Negative Mining 的概念，为什么简单的随机采样不足以训练高性能模型。
粗排与精排的区别：了解在电商场景下，如何在海量商品库中快速筛选候选集。

学习时间: 4-6周

学习资源:

论文：精读 “Sampling-Bias-Corrected Neural Modeling for Large-Scale Recommendation” (YouTube DNN)
论文：阅读关于 Learning to Rank 的经典综述，特别是关于 LambdaRank 和 LambdaMART 的原理。
课程：Coursera 上的 “Recommender Systems” 或 “Deep Learning” 专项课程中关于 Embedding 的部分。

学习建议: 尝试从数学角度理解为什么直接优化 NDCG 很难（因为它是不可微的），以及现代深度学习模型是如何通过近似或代理损失来解决的。自己动手实现一个简单的双塔模型，并用一个公开的数据集（如 MovieLens）跑通训练流程。

阶段 3：论文精读与策略解析

学习内容:

针对 “Mine and Refine” 论文的背景分析：理解电商场景下长尾查询和商品匹配的难点。
核心机制解析：
- Mine: 探索模型如何挖掘潜在的、高相关性的样本，解决样本稀疏问题。
- Refine: 理解模型如何利用多级标签优化排序，解决位置偏差或样本不平衡问题。
模型架构细节：分析论文中提出的具体网络结构、训练目标函数以及它与标准 Softmax Loss 或 InfoNCE Loss 的区别。
实验设计与评估：学习论文中如何设计 A/B 测试，以及如何通过离线指标（Recall, NDCG）和在线指标（CTR, CVR, GMV）来验证效果。

学习时间: 3-5周

学习资源:

论文原文：反复研读 “Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval”
代码库：寻找相关的开源实现（如果官方未开源，可寻找类似的 GitHub 项目，如双塔模型的各种变体实现）。
学术视频：在 YouTube 或 Bilibili 上搜索相关作者或领域专家对该论文的解读（如有）。

学习建议: 带着问题去阅读：这篇论文解决了现有方法的什么痛点？它的“Mine”步骤是否类似于某种特定的数据增强或采样策略？“Refine”步骤是否是一种特殊的蒸馏或多任务学习手段？画出论文中的模型架构图，并用自己的语言复现推导过程。

阶段 4：工程实践与前沿拓展

学习内容:

向量检索技术：学习 Faiss、Annoy、Milvus 等向量数据库的使用，理解 ANN（近似最近邻）搜索算法（如 HNSW, IVF）。
模型训练技巧：大规模稀疏模型的训练策略，包括分布式训练、混合精度训练等。
在线学习：探索如何将模型部署上线，并利用在线数据实时更新模型。
前沿拓展：了解多模态搜索（结合文本、图像）、基于 LLM（大语言模型）的语义检索等最新趋势。

学习时间: 持续学习

学习资源:

常见问题

1: 什么是“分级相关性”，为什么它在电商搜索中很重要？

A: 分级相关性指的是搜索结果与用户查询意图之间匹配程度的层级划分，通常表示为多级标签（例如：精确匹配、部分匹配、不匹配等）。在电商搜索中，这比传统的二元相关性（相关/不相关）更为重要，因为用户的购买意图往往包含细微差别。例如，用户搜索“iPhone 15 Pro Max”，返回“iPhone 15”虽然相关，但不如直接返回“Pro Max”型号完美。通过引入分级相关性，搜索引擎可以优先展示最符合用户意图的商品，从而提高点击率和转化率，而不仅仅是把“相关”的商品堆砌在前面。

2: 本文提出的 Mine and Refine 框架的核心逻辑是什么？

A: Mine and Refine 框架旨在解决电商搜索中“数据稀疏”和“标签噪声”的问题。其核心逻辑分为两个阶段：

Mine（挖掘）：利用现有的、可能存在噪声或稀疏的标注数据（如用户点击、购买行为），通过数据挖掘技术或弱监督学习方法，生成大量的伪标签或初步的相关性判断。
Refine（精炼）：在挖掘出的数据基础上，利用更精细的模型或损失函数（如针对分级相关性设计的 Learning to Rank 模型），对结果进行校准和优化，去除噪声，从而训练出能够准确预测分级相关性的高性能检索模型。

3: 该方法如何处理电商场景下常见的“数据稀疏”和“标注成本高”的问题？

A: 传统的排序模型（如 LambdaMART 或深度排序模型）依赖大量人工标注的分级数据，这在电商场景下成本极高且难以扩展。Mine and Refine 框架通过“挖掘”阶段，利用用户行为日志（点击、加购、购买时长等）作为弱监督信号。这些行为数据虽然不如人工标注精准，但数量庞大且免费。框架通过特定的算法将这些行为信号映射为分级相关性标签，从而在无需大规模人工标注的情况下，生成了足够的训练样本供“精炼”阶段使用，有效缓解了数据稀疏问题。

4: 与传统的二元相关性（Binary Relevance）优化相比，优化分级相关性有哪些具体优势？

A: 传统的二元相关性仅区分“相关”和“不相关”，容易导致“部分相关”的商品排在“完美相关”的商品之前，只要它们都属于“相关”类别。优化分级相关性的优势在于：

更精准的排序：它能够区分“好”与“最好”，将最符合用户需求的商品（如完全匹配品牌、型号、属性）排在前面，将仅部分匹配的商品排在后面。
提升用户体验：用户在第一屏就能找到最想要的商品，减少了浏览和筛选的时间。
增加商业价值：更精准的排序通常直接带来更高的转化率（CVR）和销售额。

5: 在“Refine”阶段，模型是如何确保对相关性进行准确分级的？

A: 在 Refine 阶段，研究通常采用专门针对分级排序设计的损失函数，例如 Listwise 的损失函数或基于 LambdaRank 的变体。这些函数不仅关注预测的顺序，还关注预测的分级分数与真实分级标签之间的差异。通过这种方式，模型在训练时会受到惩罚，如果它将一个“2级相关”的物品预测得比“3级相关”的物品分数更高。此外，Refine 阶段可能会引入更复杂的特征交互或注意力机制，以更细致地捕捉查询与商品之间的语义匹配程度，从而实现对相关性的精确校准。

6: 该研究在实际的电商搜索系统中部署面临哪些挑战？

A: 尽管该方法在理论上有效，但在实际部署中面临以下挑战：

行为偏差：用户行为数据（点击数据）存在位置偏差和选择偏差，用户倾向于点击排在前面的商品，即使它们不是最相关的。Mine 阶段需要反偏差处理。
实时性要求：电商搜索对延迟非常敏感。复杂的 Refine 模型可能会增加推理时间，需要在模型效果和推理速度之间做平衡。
长尾查询：对于出现频率极低的长尾查询，挖掘阶段可能无法获得足够的行为数据来生成可靠的伪标签，这需要特定的泛化策略。

7: 该方法对其他领域的搜索或推荐系统有借鉴意义吗？

A: 是的，Mine and Refine 的思路具有广泛的通用性。虽然本文针对电商搜索，但任何面临“标注数据昂贵”且“存在隐式反馈信号”的场景都可以借鉴。例如：

内容推荐系统：利用用户的观看时长、完播率作为挖掘信号，优化内容的分级满意度。
文档检索：利用用户的停留时间或文档滚动深度，来优化搜索结果与查询的深度匹配度。只要任务目标是优化排序质量，且存在可利用的弱监督数据，这种“先挖掘弱信号，再精炼模型”的范式都是适用的

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

在传统的电商搜索排序中，我们通常使用二元标签（如点击或不点击）作为训练目标。请简述在引入“分级相关性”概念后，对于用户仅仅浏览了商品详情页但未购买的行为，应该如何定义其相关性等级？这种定义方式相比于单纯的“点击”标签，能捕捉到哪些额外的用户意图信息？

提示**:

引用

ArXiv: http://arxiv.org/abs/2602.17654v1
PDF: https://arxiv.org/pdf/2602.17654v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：数据 / 后端
标签：电商搜索 / 信息检索 / 相关性排序 / 对比学习 / Embedding / 长尾查询 / 检索优化 / cs.IR
场景： Web应用开发

Mine and Refine：优化电商搜索检索中的分级相关性
Postgres模糊/语义搜索：输入’Beatles abbey rd’精准定位Abbey Road！🚀
面向文本检索器域适应的影响引导采样方法
扩散预训练模型生成稠密上下文嵌入
基于扩散预训练的稠密上下文嵌入模型 本文由 AI Stack 自动生成，深度解读学术研究。

Mine and Refine：优化电商搜索检索中的分级相关性