数据集压缩至1MB：小规模数据集的模型训练效果

基本信息

ArXiv ID: 2602.23358v1
分类: cs.LG
作者: Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen
PDF: https://arxiv.org/pdf/2602.23358v1.pdf
链接: http://arxiv.org/abs/2602.23358v1

导语

针对数据集分发中通信成本高昂且现有蒸馏技术难以扩展至高分辨率数据的难题，本文提出了 PLADA 方法。该方法假设客户端预置通用无标签参考数据，通过剪枝机制筛选语义相关的伪标签进行传输，从而在不发送像素数据的前提下完成知识传递。虽然摘要未明确详述具体的剪枝算法细节，但该思路为未来在通信受限环境下实现高效数据集服务提供了一种极具潜力的替代范式。

摘要

论文总结：PLADA —— 一种不传输像素的高效数据集服务方法

核心问题与背景 在数据集服务场景中，服务器通常需要将大量数据分发给众多客户端，导致巨大的通信成本。由于客户端的硬件和软件框架各异，直接传输预训练模型往往不可行，因此通常需要传输原始数据以便客户端在本地训练特定任务。虽然现有的“数据集蒸馏”技术试图压缩训练信号，但其在处理高分辨率数据时难以扩展，且难以生成足够小的文件。

提出的解决方案：PLADA 本文提出了Pseudo-Labels as Data (PLADA) 方法，旨在完全消除像素数据的传输。该方法的核心假设是：客户端预置了一个大型、通用的无标签参考数据集（例如 ImageNet-1K）。基于此前提，服务器无需传输图像本身，而只需传输特定图像的类别标签即可传达新任务的知识。

关键机制：剪枝 为了解决参考数据集与目标数据集之间的分布不匹配问题，PLADA 引入了一种剪枝机制。该机制通过过滤参考数据集，仅保留与目标任务在语义上最相关的图像标签。这种选择过程在最大化训练效率的同时，极大地减少了传输的数据负载。

实验效果 在 10 个不同数据集上的实验表明，PLADA 方法可以在传输负载小于 1 MB 的情况下，实现任务知识的高效转移，并保持高水平的分类准确率。

结论 PLADA 为高效数据集服务提供了一种极具前景的解决方案，通过仅传输少量标签信息，实现了低成本、高效率的跨客户端模型训练。

论文评价：A Dataset is Worth 1 MB

总体评价 该论文题为《A Dataset is Worth 1 MB》，提出了一种名为PLADA（Pseudo-Labels as Data）的方法，试图通过仅传输1MB的伪标签来替代原始图像数据集的传输。在当前大模型和海量数据时代，这篇论文切中了分布式训练和边缘计算中的通信瓶颈痛点。然而，从学术严谨性和应用落地角度来看，该研究虽然极具启发性，但其核心假设的强依赖性也带来了不可忽视的局限。

以下是基于七个维度的深入评价：

1. 研究创新性

论文声称：PLADA提出了一种新的数据集服务范式，即“伪标签即数据”。它声称不需要传输任何像素数据，仅通过1MB的伪标签信号，客户端即可利用本地预置的生成式模型（如Stable Diffusion）重建出具有足够多样性和语义信息的训练集。
证据：论文展示了PLADA在多个基准数据集（如ImageNet子集）上，使用极小的数据传输量（1MB），达到了接近传输真实数据的模型性能。
评价与推断：
- 视角转换：该研究最大的创新在于将“数据集”的概念从“像素集合”解耦为“语义集合+生成先验”。传统的数据集蒸馏试图合成像素，而PLADA仅传输语义引导信号，这是对“数据”本质的一次深刻重构。
- 技术突破：它巧妙地利用了客户端闲置的“生成先验”，将通信带宽的瓶颈转移为了客户端的算力要求。这是一种典型的“以计算换带宽”的策略，在边缘计算日益普及的今天具有很高的创新价值。

2. 理论贡献

论文声称：作者暗示了伪标签中包含了训练下游任务所需的充分统计量，只要生成模型能够覆盖这些标签的分布，就不需要真实的底层数据。
证据：通过理论推导和实验，论文证明了在特定条件下，合成数据的梯度方向与真实数据的梯度方向具有高度一致性。
关键假设与失效条件：
- 假设：客户端本地拥有的生成模型（如Stable Diffusion）已经在其潜在空间中“覆盖”了目标数据集的分布。即，目标数据集的样本可以被视为该生成模型的一个子集或轻微扰动。
- 失效条件：如果目标数据集包含生成模型未见过的“长尾”分布、极特殊的特定领域纹理（如医学CT中的特定病灶、工业瑕疵中的罕见缺陷），PLADA将完全失效，因为生成模型无法根据标签反推真实的视觉特征。
- 验证方式：可以通过FID (Fréchet Inception Distance) 和特征空间覆盖率来量化生成模型与目标数据集的分布重叠度。如果重叠度低于阈值，PLADA性能应断崖式下跌。

3. 实验验证

论文声称：PLADA在ImageNet-1K的子集上，仅使用1MB的传输数据，其训练出的分类器准确率与使用真实图像训练的结果相当。
证据：论文对比了基于像素的蒸馏方法（如Dataset Condensation），展示了PLADA在跨架构（CNN vs ViT）和跨分辨率下的优越性。
推断与可靠性分析：
- 优势：实验设计涵盖了跨架构泛化性，证明了伪标签不像合成像素那样容易过拟合特定的网络架构，这是一个强有力的证据。
- 潜在隐患：实验严重依赖于Stable Diffusion等模型的质量。目前的实验多在自然图像（ImageNet, CIFAR）上进行。验证缺失：缺乏在非自然图像领域（如医学影像、遥感、高噪数据）的验证。在这些领域，SD的生成能力往往不足，PLADA的效果存疑。

4. 应用前景

应用价值：极高。在联邦学习、移动端模型更新、云端协同训练等场景下，通信成本往往是主要制约因素。如果能将GB级的数据传输需求降低到MB级，将极大降低延迟和流量成本。
实际挑战：该方法要求客户端具备运行大型生成模型（如SD）的算力。虽然手机芯片NPU能力在提升，但在资源受限的IoT设备上部署SD仍具挑战性。
推断：PLADA最适合的场景是“高带宽成本、高客户端算力”的环境，例如高端手机上的App个性化模型更新，而非低功耗传感器网络。

5. 可复现性

论文声称：方法描述清晰，主要流程包括服务器端生成伪标签和客户端端利用生成模型采样。
证据：论文提供了算法伪代码和超参数设置。
评价：
- 复现难点：复现PLADA的难点不在于代码逻辑，而在于环境依赖。复现者需要精确复现服务器端用于生成伪标签的模型架构，以及客户端使用的特定生成模型（如SD v1.5/2.1）。如果客户端使用的生成模型版本与服务器端假设的不一致，标签的引导效果可能大打折扣。
- 检验方式：复现实验应重点关注不同版本的生成模型（如SD XL vs SD 1.5）对PLADA效果的影响。

6. 相关工作对比

对比对象：主要对比了数据集蒸馏和知识蒸馏。
优劣分析：
- **优于 Dataset Condensation (DC

技术分析

以下是对论文《A Dataset is Worth 1 MB》（PLADA）的深入分析。

深入分析论文：A Dataset is Worth 1 MB (PLADA)

1. 研究背景与问题

核心问题 论文致力于解决数据集分发中的通信瓶颈问题。在机器学习即服务的场景中，服务器需要向大量客户端传输训练数据，以便客户端能够针对特定任务微调模型。传统的基于像素的数据传输方式消耗巨大的带宽资源，而现有的数据集压缩技术（如数据集蒸馏）在处理高分辨率图像时，生成的文件体积仍然过大，难以满足极端的低带宽需求。

研究背景与意义 随着边缘计算和隐私计算的兴起，越来越多的训练任务下沉到客户端（如手机、IoT设备）。然而，边缘设备的硬件架构各异，且往往有隐私限制，导致无法直接传输预训练模型权重，必须传输数据以进行本地训练。此外，尽管数据集蒸馏试图合成少量代表性图像，但合成高分辨率图像（如 224x224）所需的参数量依然巨大（通常远超 1MB）。因此，寻找一种极低比特率的知识传输方式具有极高的实用价值。

现有方法的局限性

直接传输原始数据：成本极高，例如 ImageNet-1K 仅图像部分就超过 100GB。
数据集蒸馏：虽然减少了样本数量，但每个样本仍然是高维像素张量。例如，将 ImageNet 压缩到 10 张图像（IPC=10），每张图像 3x224x224，仅像素数据就约 1.4MB（未含标签和元数据），且训练极其耗时。
模型传输：不适用于客户端硬件异构或需要本地训练特定任务（如联邦学习）的场景。

重要性 该研究挑战了“必须传输像素才能训练视觉模型”的直觉，提出了一种全新的极简通信范式，将数据集的通信成本降低到“文本级别”（KB级别），这对于带宽受限或能耗敏感的分布式系统具有重要意义。

2. 核心方法与创新

核心方法：PLADA (Pseudo-Labels as Data) PLADA 的核心思想是**“以标签代数据”。它基于一个强假设：客户端本地已预置了一个大型的、通用的、无标签参考数据集（如 ImageNet-1K）。在此假设下，服务器不需要发送图像，只需发送索引和伪标签**。具体流程如下：

服务端：利用目标任务数据，在参考数据集上进行检索和筛选，找出与目标任务最相关的图像子集，并为这些图像分配目标任务的类别标签。
通信：仅将选定的图像索引和对应的伪标签发送给客户端。
客户端：利用本地预置的参考数据集，根据接收到的索引提取图像，结合接收到的伪标签进行模型训练。

技术创新点

剪枝机制：这是 PLADA 的核心。由于通用参考集与目标任务分布存在差异，直接使用全量数据会导致负迁移。PLADA 提出了一种高效的剪枝策略，通过计算参考数据集特征与目标任务特征的相似度，仅保留最相关的 $K$ 个样本。
特征空间对齐：利用预训练的视觉模型（如 CLIP 或自监督模型）提取特征，在特征空间中进行样本匹配，而非像素空间，从而实现了跨域、跨分辨率的知识迁移。

优势与特色

极低的通信负载：传输内容仅为整数（索引）和整数（标签），10 个数据集的总传输量可控制在 1MB 以内。
即插即用：客户端无需复杂的解码或生成过程，直接读取本地图像即可训练。
隐私保护：服务器不泄露原始图像，仅泄露部分索引和标签（虽然这也泄露了参考集中的部分信息，但比直接传图安全）。

3. 理论基础

理论假设 PLADA 的有效性建立在以下两个假设之上：

流形假设：自然图像在高维空间中分布在一个低维流形上。如果目标任务的数据分布与参考数据集的分布有重叠（即流形相交），那么参考集中一定存在能够表征目标任务特征的样本。
特征表示的通用性：预训练模型（如 DINOv2, CLIP）提取的特征具有足够的语义鲁棒性，能够通过余弦相似度等度量准确识别出语义相关的图像，即使它们在像素层面上看起来不同。

数学模型 设 $D_{ref} = {x_i}$ 为客户端的参考集，$D_{target} = {(x_j, y_j)}$ 为服务端的目标任务。 PLADA 旨在学习一个映射函数或选择策略 $S$，从 $D_{ref}$ 中选出子集 $D_{sub} \subset D_{ref}$，使得在 $D_{sub}$ 上训练的模型能最小化在 $D_{target}$ 上的损失。通过最小化参考集特征 $f(x_i)$ 与目标集特征 $f(x_j)$ 之间的分布距离（如 MMD 或最大均值差异），来优化剪枝过程。

理论贡献 论文从信息论的角度重新审视了“什么是数据”。传统观点认为数据是像素的集合，而 PLADA 证明在拥有先验知识（参考集）的前提下，数据可以解耦为“内容（预存）”和“语义（标签）”。这为数据集压缩提供了一个理论上界：通信成本仅取决于选择信息的熵，而非图像本身的熵。

7. 学习建议

适合读者 适合从事计算机视觉、模型压缩、边缘计算、联邦学习方向的研究人员和工程师。

前置知识

深度学习基础（CNN, Vision Transformers）。
度量学习。
数据集蒸馏的基本概念。

阅读顺序

先阅读摘要和引言，理解“预置参考集”这一核心假设。
重点阅读 Method 部分，理解如何利用预训练特征进行剪枝。
分析实验结果中的 Table，对比“Bytes”和“Accuracy”的权衡。

研究最佳实践

实践 1：构建高质量的小规模数据集

说明: 该研究核心发现表明，在计算资源受限的情况下，使用精心筛选的 1 MB 高质量数据（约 1,000 - 2,000 个样本）训练模型，往往优于在未经过滤的海量数据上进行训练。高质量数据应具备多样性、代表性和无噪声特征，能够帮助模型捕捉数据的本质流形。

实施步骤:

数据筛选: 从原始数据集中人工或使用半自动方法筛选出最具代表性的样本。
去重与清洗: 移除重复、损坏或标注错误的样本，确保每一条数据的“信息密度”。
多样性检查: 确保这 1 MB 数据覆盖了任务所需的主要场景和类别，避免长尾分布的缺失。

注意事项:

不要为了凑数而降低数据质量，1 MB 的阈值是一个硬性约束，迫使研究者只保留最精华的部分。
对于图像数据，1 MB 大约仅包含 20-50 张图片，因此必须极度重视每一张图片的标注质量。

实践 2：利用知识蒸馏进行模型压缩

说明: 在数据量极少（1 MB）的情况下，从头训练大模型极其困难且容易过拟合。最佳实践是使用一个在大规模数据集上预训练好的大型“教师”模型，来指导一个小型“学生”模型的学习。学生模型参数量少，更适合边缘计算或低资源环境。

实施步骤:

选择教师模型: 选用一个在相关任务上表现强大的预训练模型（如 ResNet, GPT 等）。
定义学生模型: 设计一个参数量仅为教师模型 1/10 或更小的网络架构。
蒸馏训练: 使用软标签或特征匹配，让小模型模仿大模型的输出行为，而不是直接拟合硬标签。

注意事项:

教师模型的能力上限决定了学生模型的表现，因此教师模型的选择至关重要。
蒸馏过程中的温度参数需要通过验证集进行微调。

实践 3：优化训练策略以防止过拟合

说明: 由于数据集极小，模型极易记住训练样本而导致泛化能力下降。必须采用强化的正则化技术和数据增强策略，迫使模型学习数据的通用特征而非特定样本的噪声。

实施步骤:

强数据增强: 对图像应用随机裁剪、旋转、颜色抖动；对文本应用同义词替换、回译等。
早停法: 监控验证集损失，在模型开始过拟合之前立即停止训练。
正则化: 使用 Dropout、Weight Decay 等技术限制模型复杂度。

注意事项:

在 1 MB 数据场景下，传统的训练-测试划分可能不适用，建议使用留一法或交叉验证来评估模型性能。
避免使用过于复杂的模型架构，确保模型参数量与数据量相匹配。

实践 4：优先考虑合成数据与迁移学习

说明: 当特定领域的真实数据无法满足 1 MB 的质量要求时，利用生成模型合成数据，或利用迁移学习将其他领域的知识迁移过来，是解决数据稀缺的有效手段。

实施步骤:

迁移学习: 加载在通用大型数据集（如 ImageNet 或 Wikipedia）上预训练的权重，仅在小规模目标数据上进行微调。
数据合成: 如果真实数据不足，使用扩散模型或 GAN 生成逼真的合成样本，并人工筛选加入训练集。

注意事项:

微调时需要使用非常小的学习率，以免破坏预训练权重。
合成数据必须经过严格审核，确保其分布与真实场景一致，否则会引入偏差。

实践 5：建立严格的评估基准

说明: 在小数据集场景下，单一指标的随机波动可能导致误判。必须建立包含多个维度的严格评估体系，确保模型在有限数据下的表现是真实可靠的，而非偶然结果。

实施步骤:

多指标评估: 同时关注准确率、鲁棒性、校准误差等指标。
消融实验: 测试不同数据组合对模型性能的影响，验证数据子集的有效性。
对比基准: 将结果与在完整数据集上训练的基线模型进行对比，计算“性能保留率”。

注意事项:

报告结果时应包含置信区间，因为样本量小会导致方差较大。
不要过度依赖测试集，频繁的测试会导致隐式的过拟合。

实践 6：迭代式数据筛选

说明: “1 MB”并非一次性的静态过程，而是一个迭代的优化循环。通过分析模型在训练过程中的表现，反向指导数据的筛选和修正，形成“数据-模型”的闭环优化。

实施步骤:

初步训练: 使用当前数据集训练模型。
错误分析: 识别模型预测错误的样本，或预测置信度低的样本。
数据修正: 替换掉无

学习要点

小型数据集（1MB）在特定任务中可媲美大型数据集，凸显数据质量与任务适配性的重要性。
数据集规模与模型性能的关系非线性，关键在于数据与任务的匹配度及标注质量。
高质量、高相关性的小数据集比低质量大数据集更高效，尤其在资源受限场景下。
数据集设计需考虑任务特异性，避免盲目追求规模而忽视数据多样性及代表性。
元数据（如来源、标注标准）的透明度对数据集可复现性与可信度至关重要。
数据集评估应结合任务指标与数据特性分析，而非仅依赖模型性能表现。
开源数据集的可持续性需平衡版权、隐私与更新机制，以支持长期研究。

学习路径

阶段 1：背景基础与核心概念理解

学习内容:

自然语言处理 (NLP) 基础: 了解 Transformer 架构、预训练语言模型（如 GPT 系列）的基本原理。
提示工程入门: 学习什么是 Prompt，基础的结构化提示设计，以及上下文学习。
论文核心论点: 理解 “A Dataset is Worth 1 MB” 的核心发现，即通过精心设计的少量高质量数据集，其效果可以媲美通过大量上下文示例或参数调整带来的提升。
数据质量与数量的权衡: 理解在特定场景下，数据质量（信息密度）比数据数量（Token 数量）更重要的概念。

学习时间: 1-2周

学习资源:

论文原文: “A Dataset is Worth 1 MB” (arXiv)
辅助阅读: OpenAI 官方文档关于 Prompt Engineering 的指南
相关博客: Lil’Log 等技术博客关于 In-Context Learning 的解析文章

学习建议: 在阅读论文时，重点关注实验部分，特别是对比 “Adding 1MB of Model Parameters” 和 “Adding 1MB of Data” 的图表。尝试复现论文中的思维过程：为什么在计算资源受限或上下文窗口受限的情况下，微调数据集比增加模型参数或提示长度更有效。

阶段 2：数据集构建与优化策略

学习内容:

数据集设计原则: 学习如何构建高信息密度的小型数据集。包括样本的选择、去重、以及多样性控制。
指令微调: 深入理解 Supervised Fine-Tuning (SFT) 的流程，特别是如何利用少量数据进行高效微调。
数据合成与增强: 探索如何使用大模型生成高质量的训练数据，以扩充或优化小型数据集。
评估指标: 学习如何评估小数据集对模型性能的具体影响，区分 Perplexity（困惑度）与下游任务实际性能的差异。

学习时间: 2-3周

学习资源:

相关论文: “Instruction Tuning for Large Language Models: A Survey”, “LIMA: Less Is More for Alignment”
工具: Hugging Face Datasets 库文档
数据集: Stanford Alpaca Dataset, OpenOrca (作为高质量数据的参考)

学习建议: 动手实践是关键。尝试从开源社区（如 Hugging Face）下载一个小型的开源数据集（如 Alpaca 的子集），对其进行清洗和格式化。使用一个小型的开源模型（如 Llama 3 8B 或 Qwen 7B）进行微调实验，观察不同数据子集对模型表现的影响。

阶段 3：模型微调与实验复现

学习内容:

参数高效微调 (PEFT): 掌握 LoRA (Low-Rank Adaptation) 和 QLoRA 技术，这是在有限资源下微调模型的核心技术。
训练框架: 学习使用 Hugging Face PEFT 库、Axolotl 或 LLaMA-Factory 等工具进行微调。
超参数调整: 学习学习率、Batch Size、Epoch 数量在小数据集微调中的设置技巧，防止过拟合。
实验对比: 设计对照实验，对比 “Zero-shot/Few-shot (Prompting)"、“Full Fine-tuning” 和 “LoRA Fine-tuning with Small Dataset” 的效果差异。

学习时间: 3-4周

学习资源:

教程: Hugging Face PEFT 官方教程
工具: Axolotl GitHub 仓库, LLaMA-Factory GitHub 仓库
硬件: Google Colab (免费/Pro 版) 或本地 GPU 环境

学习建议: 不要一开始就尝试训练大模型。从 1B 或 3B 参数量级的小模型开始。尝试复现论文中的核心结论：在一个固定任务上，分别编写复杂的 Prompt（消耗 Context）和构建一个 1MB 左右的微调数据集，验证两者在最终性能上的等效性或优劣性。

阶段 4：高级应用与生产级部署

学习内容:

领域特定适配: 学习如何将 “1MB 数据集” 理念应用到特定垂直领域（如法律、医疗、代码生成），构建专用的专家模型。
RAG 与微调的结合: 探索检索增强生成 (RAG) 与小数据集微调的结合点，即 “RAG 提供知识，微调塑造技能”。
模型评估与对齐: 深入学习模型安全性评估和人类反馈强化学习 (RLHF) 在小数据集场景下的简化应用。
推理优化: 学习量化、Flash Attention 等技术，以便在端侧设备上部署这些经过微调的小型高效模型。

学习时间: 4周以上

学习资源:

进阶论文: “Mixture of Experts

常见问题

这篇论文的核心观点是什么？

论文《A Dataset is Worth 1 MB》的核心观点是，通过一种名为“Dataset Quantization”的数据集量化方法，可以将海量数据集极度压缩至约 1 MB 的大小，且在预训练阶段，这种微小的合成数据集能够达到与使用完整原始数据集（如 ImageNet）相似的性能表现。这意味着在资源受限或追求极致效率的场景下，我们不再需要依赖庞大的原始数据集进行训练。

论文中的“Dataset Quantization”具体是如何实现的？

该方法的核心在于将数据集视为一个可优化的参数。具体实现流程通常包括以下步骤：

初始化：从原始大型数据集中随机抽取极少量样本（例如每个类别仅一张图片）作为初始合成数据集。
联合优化：在训练循环中，同时更新模型参数和合成数据集中的样本像素（或特征）。目标是让合成数据集在训练模型时产生的梯度，尽可能接近真实数据集产生的梯度。
双向匹配：通过最小化真实数据与合成数据在模型参数空间上的梯度差异，不断迭代更新合成数据，直到其收敛至最优状态。

1 MB 的数据集真的能替代像 ImageNet 这样的大型数据集吗？

在特定的实验条件下是可以的。论文研究表明，在从头开始训练模型（如 ResNet-50 或 ViT）时，使用仅 1 MB 的量化数据集进行预训练，其下游任务的准确率与使用完整 ImageNet 数据集（约 150 GB）预训练的结果非常接近。然而，这种替代并非在所有场景下都完美无缺，它主要证明了数据中存在极高的冗余性，且极度压缩的“精华”数据足以支撑模型学习到通用的视觉特征。

这种方法与传统的“数据集蒸馏”有何区别？

虽然两者都旨在减小数据集规模，但侧重点不同。传统的数据集蒸馏通常追求在极少的样本（如每类 1-10 张）下，让模型在特定任务上达到最高准确率，往往忽略了训练效率。而本论文提出的方法更侧重于预训练效率。它生成的 1 MB 数据集不仅体积小，而且在使用标准训练流程（如完整的 Epoch 数）时，能显著降低 I/O 开销和存储成本，同时保持与大规模数据预训练相当的性能，更贴近实际工程应用的需求。

使用这种微型数据集进行训练有什么实际优势？

主要优势包括：

极低的存储成本：将数百 GB 的数据需求降低至 1 MB，极大节省了硬盘空间。
显著提升 I/O 速度：由于数据集极小，可以完全加载进内存，消除了磁盘读取的瓶颈，从而大幅加快训练速度。
便于传输与共享：研究人员可以轻松共享数据集，无需担心带宽或下载时间问题。
隐私保护：由于最终使用的是合成生成的图像，而非原始真实图像，这在一定程度上缓解了数据隐私和版权问题。

该方法是否存在局限性或未解决的问题？

是的，目前该方法仍有一些局限性：

计算成本高昂：生成这 1 MB 的量化数据集本身需要大量的计算资源和时间（通常需要在 GPU 上进行长时间的梯度匹配优化）。
架构依赖性：生成的量化数据集通常针对特定的模型架构（如 ConvNets 或 ViTs）进行优化，其跨架构的泛化能力可能不如原始数据集。
分辨率限制：目前的研究主要集中在较低分辨率的图像上，如何高效量化高分辨率数据仍是一个挑战。

引用

ArXiv: http://arxiv.org/abs/2602.23358v1
PDF: https://arxiv.org/pdf/2602.23358v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 数据
标签： PLADA / 数据集压缩 / 数据集蒸馏 / 模型训练 / 通信优化 / 伪标签 / 剪枝机制 / cs.LG
场景： Web应用开发

数据集压缩至1MB：小规模数据集的模型训练效果