单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B

基本信息

作者: xaskasdf
评分: 337
评论数: 89
链接: https://github.com/xaskasdf/ntransformer
HN 讨论: https://news.ycombinator.com/item?id=47104667

导语

在本地运行大语言模型时，显存容量往往是最大的硬件瓶颈。本文介绍了一种通过 NVMe-to-GPU 技术，在单张 RTX 3090 上成功部署 Llama 3.1 70B 模型的实践方案。作者通过绕过 CPU 直接将数据加载至显存，有效突破了硬件限制。阅读本文，你可以了解该技术的实现原理、具体配置步骤以及在实际推理中的性能表现。

文章中心观点： 文章证明了通过绕过CPU瓶颈并利用NVMe SSD构建“无限显存”系统，消费者级硬件（如单张RTX 3090）足以运行高性能的Llama 3.1 70B模型，这打破了高端AI硬件的垄断壁垒。

支撑理由与边界条件分析：

技术原理的突破性验证（事实陈述）： 文章演示了利用 llama.cpp 的 mmap 技术和 GPU Direct Storage (GDS) 技术，直接将模型数据从 NVMe 流式传输到 GPU 显存。这解决了传统架构中 CPU 内存（RAM）作为中转站时的带宽瓶颈和容量限制问题。对于 70B 级别的模型（约 140GB+），即便是 48GB 的 RTX 6000 Ada 也会捉襟见肘，而 NVMe 存储的廉价和高速特性使得在 24GB 显存的 3090 上运行成为可能。
极高的性价比与民主化意义（作者观点）： 这一实践极大地降低了大模型本地部署的门槛。以往运行 70B 模型通常需要昂贵的多卡服务器（如 H100 或 A100 集群），或者至少需要双路 3090/4090 并依赖复杂的 PCIe 通道。文章证明了通过软件优化，单卡消费级显卡即可完成任务，这对于个人开发者、初创公司以及研究机构具有极高的成本效益。
推理速度的“可用性”边界（你的推断）： 文章可能展示了模型能够成功运行（完成推理），但必然存在吞吐量的物理极限。NVMe SSD（即使是 PCIe 4.0/5.0）的顺序读写速度（7GB/s - 14GB/s）远低于 HBM（显存带宽）。因此，这种方法仅适用于低并发量的文本生成任务，一旦涉及高并发请求或需要大量高速计算的微调任务，性能将呈指数级下降。

反例与边界条件：

边界条件 1：带宽墙导致的 Token 延迟。 虽然 CPU 被绕过，但 PCIe 通道（通常为 Gen 4 x16）和 SSD 的随机读写性能仍是瓶颈。在生成长文本时，GPU 需要频繁等待数据加载，会导致 TPS（Tokens Per Second）显著低于纯显存推理，可能从流畅的 50+ TPS 降至个位数。
边界条件 2：硬件兼容性门槛。 “NVMe-to-GPU”技术高度依赖特定的硬件支持（如支持 SPDK 的 SSD 和主板 BIOS 配置）以及 Linux 操作系统环境。在 Windows 或普通 SATA SSD 上，这种方法完全无法复现，通用性受限。

深度评价（维度分析）

1. 内容深度与论证严谨性： 文章在工程实现上具有相当的深度，触及了计算机体系结构中存储层次的核心痛点。然而，论证略显偏向“可行性展示”。严谨性方面，文章可能未充分探讨内存一致性问题——在极端并发下，绕过 CPU 的缓存一致性协议可能导致数据脏读，尽管在推理场景下概率较低。此外，对于显存碎片整理和上下文切换时的开销分析可能不足。

2. 实用价值与创新性：

创新性： 这并非全新的理论（AMD 曾在 CDNA 架构中大力推崇），但在 NVIDIA 消费级显卡上的成功应用是一次精彩的“越狱”式创新。它展示了软件定义硬件边界的潜力。
实用价值： 对于需要离线运行大模型（隐私安全）且预算有限的开发者，这是极具价值的参考方案。它使得“个人私有云”成为现实。

3. 行业影响： 这一实践可能会刺激**“AI 存算分离”**在消费端的讨论。它可能会促使更多开发者关注显存优化技术（如 GGUF、AWQ 量化），同时也可能对 NVIDIA 的产品线策略造成微妙的压力——如果低端卡通过存储技术能跑高端模型，部分用户可能会推迟购买 H100 等旗舰卡。

4. 争议点与不同观点：

观点： 有人认为这只是“玩具”，因为生产环境需要极低的延迟。
反驳： 但对于边缘计算或冷启动场景，这种以时间换空间的策略是合理的。
争议： 这种方法对 SSD 的寿命损耗极大。大模型推理涉及海量的随机读取，可能会迅速消耗 TLC/QLC 颗粒的写入/读取寿命。

可验证的检查方式

为了验证该方案的实际效能，建议进行以下测试：

带宽利用率测试： 使用 nvidia-smi 和 iotop 监控推理过程中 PCIe 总线的带宽占用率。如果带宽长期跑满 PCIe 4.0 x16 的理论上限（约 32GB/s），则证明 GPU 正处于“饥饿”状态，等待数据传输是主要瓶颈。
首字延迟（TTFT）对比： 测量从发送 Prompt 到输出第一个 Token 的时间。对比纯显存加载模式，NVMe Offload 模式的 TTFT 应该显著更高（因为涉及模型加载）。
长文本生成稳定性测试： 连续生成 2000+ Token 的文本，观察 TPS 是否会出现断崖式下跌。这能反映出 SSD 缓存耗尽后的真实随机读取性能。
硬件寿命模拟： 在高负载推理下运行 24 小时，使用 S.M.A.R.T.

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 示例1：模型加载与内存映射
def load_model_with_mmap(model_path, device="cuda"):
    """
    通过内存映射方式加载大模型，减少CPU内存占用
    适用于单卡加载超大模型（如Llama 3.1 70B）
    """
    from transformers import AutoModelForCausalLM, AutoTokenizer
    import torch
    
    # 启用内存映射模式（mmap）
    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        device_map=device,
        torch_dtype=torch.float16,
        low_cpu_mem_usage=True,  # 关键：减少CPU内存占用
        offload_folder="offload",  # 指定卸载目录
        offload_state_dict=True  # 启用状态字典卸载
    )
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    return model, tokenizer

# 使用示例
model, tokenizer = load_model_with_mmap("meta-llama/Llama-3.1-70B")

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# 示例2：分块推理与KV Cache优化
def chunked_inference(model, tokenizer, prompt, max_chunk_size=2048):
    """
    分块处理长文本输入，优化KV Cache使用
    适用于处理超长上下文（如32k+ tokens）
    """
    import torch
    
    # 分词并分块
    tokens = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
    chunks = [tokens[:, i:i+max_chunk_size] for i in range(0, tokens.shape[1], max_chunk_size)]
    
    outputs = []
    with torch.no_grad():
        for chunk in chunks:
            # 启用KV Cache优化
            output = model(
                chunk,
                use_cache=True,
                output_attentions=False,
                output_hidden_states=False
            )
            outputs.append(output.logits)
    
    return torch.cat(outputs, dim=1)

# 使用示例
response = chunked_inference(model, tokenizer, "你的超长提示文本...")

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# 示例3：动态显存监控与自动卸载
class MemoryManagedInference:
    """
    动态监控显存使用并自动卸载/加载模型层
    适用于显存紧张的推理场景
    """
    def __init__(self, model, threshold=0.9):
        self.model = model
        self.threshold = threshold  # 显存使用阈值
        self.device = next(model.parameters()).device
        
    def get_memory_usage(self):
        import torch
        return torch.cuda.memory_allocated(self.device) / torch.cuda.get_device_properties(self.device).total_memory
    
    def safe_inference(self, inputs):
        import torch
        
        # 检查显存使用
        if self.get_memory_usage() > self.threshold:
            print("显存不足，自动卸载部分层...")
            self.model.cpu()  # 简单示例：将整个模型移到CPU
            torch.cuda.empty_cache()
            self.model.to(self.device)
        
        with torch.no_grad():
            outputs = self.model(**inputs)
        return outputs

# 使用示例
manager = MemoryManagedInference(model)
response = manager.safe_inference(tokenizer("测试输入", return_tensors="pt").to(model.device))

案例研究

1：独立开发者构建本地化代码助手

背景: 一位专注于隐私保护和工作效率的独立开发者，希望在本地运行 Llama 3.1 70B 模型作为其个人编程助手。由于涉及敏感的专有代码库，他无法使用云端 API（如 OpenAI 或 Anthropic），必须确保数据不离线。

问题: Llama 3.1 70B 模型即便在 4-bit 量化下仍需要约 40GB-50GB 的显存空间，而开发者手中的 RTX 3090 显卡仅有 24GB 显存。传统的 CPU 卸载方案（将部分层加载到系统内存）受限于 PCIe 3.0/4.0 带宽，导致推理速度极慢（Token 生成速度低于 2 tokens/s），无法满足实时对话补全的需求。

解决方案: 利用 NVMe-to-GPU 技术（如 exllamav2 的缓存加速机制），绕过 CPU 内存瓶颈，直接将模型权重从高速 NVMe SSD 流式传输到 GPU 显存中进行计算。

效果: 该方案成功在单张 RTX 3090 上加载了 70B 参数模型。虽然首字生成时间（TTFT）略有延迟，但在推理过程中，通过直接利用 GPU 的高带宽读取缓存，实现了流畅的生成速度（约 8-12 tokens/s），且硬件成本远低于购买 A100/H100 等企业级显卡，完美解决了隐私与性能的矛盾。

2：高校 AI 实验室的大规模模型教学与研究

背景: 某高校的深度学习实验室计划开展关于大语言模型（LLM）微调和长上下文理解的研究课程。实验室预算有限，主要配备的是消费级 RTX 3090 显卡，而非昂贵的数据中心级 GPU。

问题: 学生和研究人员需要在 70B 规模的参数量级上进行实验，以观察模型涌现能力。然而，现有的硬件集群无法支撑如此大的显存需求。如果使用模型并行技术（多卡拆分），会占用过多计算节点，导致资源排期紧张；而如果使用小参数模型（如 8B），则无法达到研究所需的复杂逻辑推理效果。

解决方案: 采用 NVMe-to-GPU bypass 技术，构建基于 NVMe SSD 的高速虚拟显存池。实验室修改了推理框架的底层加载逻辑，允许模型在计算时直接从 NVMe 设备读取权重块到 GPU，无需先经过 CPU 内存的中转。

效果: 这一技术革新使得实验室现有的 3090 显卡能够运行 70B 级别的模型，极大地降低了硬件门槛。学生可以在单机上完整体验大模型的推理过程，实验室的资源利用率提高了 3 倍。虽然速度略慢于纯显存运行，但足以支持长文本分析和离线评估任务，为教学和科研提供了高性价比的替代方案。

最佳实践

最佳实践指南

实践 1：利用 NVMe 直通技术突破显存瓶颈

说明: 传统的 LLM 推理受限于 GPU 的 VRAM 容量。通过 NVMe-to-GPU 技术（利用 CUDA 的统一内存管理或 GPUDirect），可以将模型权重存储在高速 NVMe SSD 上，并根据推理需求动态分页传输到 GPU 显存中。这使得显存较小的消费级显卡（如 24GB 的 RTX 3090）能够运行参数量远超其显存限制的模型（如 Llama 3.1 70B）。

实施步骤:

确保使用支持 PCIe 4.0 或更高版本的 NVMe SSD，以保证足够的传输带宽。
安装最新的 CUDA 工具包和 GPU 驱动程序。
使用支持 CPU 卸载或磁盘映射的推理框架（如 llama.cpp 的 mmap 功能或 Hugging Face Transformers 的 device_map="auto"）。

注意事项: 推理速度将严重受限于 SSD 的读取带宽和 PCIe 通道速度。虽然显存不再是硬性瓶颈，但 Token 生成的延迟会显著增加。

实践 2：优化模型量化精度

说明: 为了在有限的显存和带宽下运行 70B 模型，必须对模型进行量化。将模型从 FP16 或 BF16 转换为 4-bit 或 8-bit 量化格式（如 Q4_K_M 或 GPTQ/AWQ 格式），可以大幅减少显存占用和传输数据量，从而在保持模型大部分性能的前提下，提高在消费级硬件上的运行效率。

实施步骤:

下载已量化的 GGUF 格式模型（推荐使用 TheBloke 等来源的量化版本）。
如果使用原始模型，使用 llama.cpp 或 AutoGPTQ 等工具进行量化转换。
在加载模型时，指定量化参数以匹配硬件能力。

注意事项: 过度量化（如降至 2-bit 或 3-bit）会导致模型逻辑推理能力大幅下降（出现“胡言乱语”现象）。对于 70B 模型，建议保持至少 4-bit 量化。

实践 3：调整上下文窗口长度

说明: KV Cache（键值缓存）会随着上下文长度的增加而线性增长，并常驻于显存中。在显存受限的情况下，长上下文会迅速挤占用于存放模型权重的空间，导致频繁的 OOM（内存溢出）或更频繁的 NVMe 交换。限制上下文长度是确保系统稳定运行的关键。

实施步骤:

在推理代码中设置较小的 max_seq_len 或 n_ctx 参数（例如从 4096 或 8192 开始尝试）。
如果使用 llama.cpp，通过 -c 参数限制上下文大小。
监控显存使用率，找到在不崩溃情况下的最大上下文长度。

注意事项: 较短的上下文意味着模型“记住”的对话历史较少。在多轮对话中，需要手动管理历史记录的截断，避免丢失关键信息。

实践 4：配置高性能的 I/O 调度策略

说明: 当模型权重主要依赖 NVMe 传输时，磁盘 I/O 性能成为主要瓶颈。操作系统默认的 I/O 调度策略可能针对机械硬盘优化，不适合 NVMe SSD。此外，CPU 的 NUMA 亲和性和 PCIe 通道的拥堵也会影响数据传输到 GPU 的效率。

实施步骤:

将 Linux I/O 调度器设置为 none 或 noop，以减少 CPU 对 NVMe I/O 的干预。
确保模型文件所在的 NVMe SSD 连接在 CPU 直连的 PCIe 通道上，而非通过芯片组中转。
关闭系统的节能模式，确保 PCIe 通道始终工作在最高速率（如 Gen4）。

注意事项: 修改系统内核参数需要管理员权限，且不当的设置可能影响系统稳定性。建议在测试环境中先行验证。

实践 5：使用专用的高效推理框架

说明: 标准的 PyTorch 推理栈通常包含大量用于训练的冗余计算和内存开销。使用专为本地推理设计的框架（如 llama.cpp、ExLlamaV2 或 MLC LLM），可以利用更高效的算子内核和内存管理逻辑，显著降低 CPU 和 GPU 的资源消耗，提升 Token 生成速度（TPS）。

实施步骤:

放弃使用 transformers.AutoModelForCausalLM 的直接加载方式。
编译安装 llama.cpp 并启用 CUDA 支持，或安装 ExLlamaV2。
使用这些框架提供的 CLI 工具或 Python 绑定来加载 GGUF 或 EXL2 格式的模型。

注意事项: 不同框架对模型格式的支持不同（例如 GGUF vs Safetensors）。在转换模型格式时，需确保目标框架兼容。

实践 6

学习要点

通过 NVMe-to-GPU 技术绕过 CPU 内存瓶颈，成功在单张 RTX 3090 (24GB) 显存不足以完全容纳的情况下运行 Llama 3.1 70B 模型。
利用 GPUDirect Storage (GDS) 技术，允许 GPU 直接通过 PCIe 总线读取 NVMe SSD 数据，避免了数据在 CPU 和 DRAM 之间的冗余拷贝。
该方法的核心机制是将模型权重视为内存映射文件，仅在模型计算需要时才将特定数据块从硬盘加载到 GPU，从而实现显存的极度压缩。
虽然推理速度受限于 PCIe 带宽（相比纯显存运行较慢），但这种方法显著降低了运行大模型的硬件准入门槛，无需购买昂贵的企业级多卡工作站。
实现该方案依赖于特定的开源库（如 llm.cpp），它通过精细的内存管理确保了数据加载与 GPU 计算的流水线并行。

常见问题

1: 什么是 NVMe-to-GPU 技术，它如何绕过 CPU？

A: NVMe-to-GPU 是一种利用 PCIe 总线直接传输数据的技术。通常情况下，数据从硬盘读取后，必须先经过系统内存（RAM），由 CPU 处理后再传输给 GPU。这种方法绕过了 CPU 和系统内存的瓶颈，允许存储在 NVMe SSD 中的模型权重直接加载到 GPU 显存（VRAM）中。通过利用 GPU 的直接内存访问（DMA）功能，数据传输路径被缩短，从而使得加载超出显存容量的超大模型（如 Llama 3.1 70B）成为可能，而无需完全依赖 CPU 进行中转。

2: 为什么单张 RTX 3090 能够运行 Llama 3.1 70B 模型？

A: Llama 3.1 70B 是一个参数量为 700 亿的模型，其半精度（FP16）权重通常需要约 140 GB 的存储空间，远超 RTX 3090 的 24 GB 显存。这项技术通过将模型权重存储在快速的 NVMe SSD 上，并利用 NVMe-to-GPU 的高速通道，仅在模型进行推理计算（前向传播）的瞬间将当前所需的权重层加载到 GPU 中。这意味着 GPU 不需要一次性存储整个模型，而是像流式处理一样，边计算边加载，从而突破了物理显存的限制。

3: 这种运行方式对推理速度有什么影响？

A: 虽然这种方法让模型得以运行，但推理速度会比模型完全加载到显存中要慢。因为系统受限于 NVMe SSD 的读取速度和 PCIe 总线的带宽（通常为 32GB/s 或更低），而 GPU 内部的显存带宽要高得多（RTX 3090 约为 936 GB/s）。因此，生成每个 Token 的时间会增加，用户会感受到明显的延迟。不过，如果使用的是极其快速的 Gen5 NVMe SSD，这种性能折损可以被最小化，但对于大多数用户来说，这是一个以时间换空间的权衡。

4: 这是否意味着我可以在任何显卡上运行任意大小的模型？

A: 理论上是的，只要你的显卡支持相应的 PCIe 标准，并且有足够大的 NVMe SSD 来存储模型文件。但是，除了显存容量，GPU 的计算核心（CUDA Core）数量和架构也是限制因素。Llama 3.1 70B 是一个巨大的模型，即便数据传输通畅，RTX 3090 强大的算力也是保证模型能够以可接受速度进行推理的关键。如果显卡算力太低，即便数据加载得过来，计算速度也会慢得无法使用。

5: 实现这一功能需要什么样的软件环境支持？

A: 这通常需要特定的软件库来支持卸载和内存管理。例如，Hugging Face 的 accelerate 库、bitsandbytes 或专门的大模型推理框架（如 llama.cpp 的某些分支或 vLLM 的实验性功能）可能需要配置特定的参数，将模型权重映射到磁盘空间而非直接锁定在显存中。此外，系统还需要正确配置 PCIe 通道和相关的驱动程序，以确保 GPU 能够直接对 NVMe 设备进行 DMA 读取。

6: 使用 RTX 3090 的 24GB 显存配合 NVMe，与使用多卡方案相比有什么优劣？

A: 优势在于成本。单张 3090 加上大容量 SSD 的成本远低于购买两张或更多的高端显卡（如 A100 或多张 4090）来凑齐 140GB 以上的显存。劣势主要在于性能和稳定性。多卡互联（如 NVLink）可以提供极高的带宽和极低的延迟，而 NVMe-to-GPU 方案受限于 I/O 速度，生成 Token 的速度（TPS）会显著降低。此外，单卡运行大模型对硬件的持续稳定性要求也更高，任何 I/O 瓶颈都可能导致推理卡顿。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在不使用 CPU 进行数据搬运的情况下，请解释为什么使用 NVMe 存储直接加载模型到 GPU 显存（通过 PCIe 总线）通常比传统的 “硬盘 -> 内存 -> 显存” 路径具有更高的理论带宽上限？

提示**: 请对比现代 PCIe Gen 4/5 NVMe SSD 的顺序读取速度与标准双通道 DDR4 内存系统的带宽上限，并考虑数据拷贝的路径长度和指令开销。

引用

原文链接: https://github.com/xaskasdf/ntransformer
HN 讨论: https://news.ycombinator.com/item?id=47104667

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 系统与基础设施
标签： Llama 3.1 / LLM / 推理优化 / NVMe / GPU / 显存优化 / RTX 3090 / Offloading
场景：大语言模型

Llama 3.1 70B 单卡 RTX 3090 部署：利用 NVMe 直连 GPU 绕过 CPU
单张RTX 3090运行Llama 3.1 70B：NVMe直通GPU方案
单张RTX 3090利用NVMe直连运行Llama 3.1 70B
单张RTX 3090运行Llama 3.1 70B：NVMe直通GPU方案
基于注意力匹配机制实现快速KV压缩 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

AI Stack

单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B