迈向通用AI：17k tokens/sec的推理性能路径

基本信息

作者: sidnarsipur
评分: 628
评论数: 358
链接: https://taalas.com/the-path-to-ubiquitous-ai
HN 讨论: https://news.ycombinator.com/item?id=47086181

导语

随着大模型在端侧设备的落地，实时响应能力已成为衡量 AI 体验的关键指标。本文深入探讨了实现无处不在的 AI 背后的技术路径，重点解析了如何在硬件层面达成每秒 1.7 万 Tokens 的处理速度。通过阅读，读者将了解突破算力瓶颈的具体方案，以及这对未来终端应用架构的深远影响。

文章中心观点： 实现“无处不在的AI”（Ubiquitous AI）的关键在于将大语言模型（LLM）的推理成本降低几个数量级，达到17k tokens/sec的极致推理速度，从而打破算力与成本的线性约束，使AI能够像电力一样无处不在。

支撑理由与边界条件：

性能是普及的前提（作者观点）： 文章主张，只有当模型推理速度达到17k tokens/sec（相当于人类阅读速度的50倍以上）时，实时交互、多模态流式处理以及大规模并发应用才成为可能。目前的“慢速”推理限制了AI在边缘端和高频场景下的落地。
- 反例/边界条件： 对于许多非实时任务（如文档总结、代码生成），延迟并非核心痛点，成本和准确性可能比极致速度更重要。此外，17k tokens/sec的指标可能是在特定硬件（如LPU、H100）和特定量化级别（如INT4）下的理论峰值，实际部署中往往受限于网络和内存带宽。
算力架构必须软硬协同（事实陈述）： 文章指出，单纯依赖摩尔定律提升GPU性能已不足以支撑指数级增长的算力需求，必须通过专用芯片（ASIC）、模型量化以及KV Cache优化等软硬件协同设计来突破内存墙。
- 反例/边界条件： 专用硬件（如Groq的LPU）往往缺乏通用性，且生态封闭。对于大多数企业而言，NVIDIA的CUDA生态仍具有不可替代的锁定效应，迁移到专用架构的开发成本极高。
成本结构将决定商业模式（你的推断）： 随着推理速度的提升，单次调用的边际成本将急剧下降，这将催生“按量付费”向“按服务订阅”的转变，甚至使得AI功能成为SaaS产品的免费标配。
- 反例/边界条件： 能源消耗和物理散热是硬性物理边界。即便算法效率提升，数据中心的总能耗仍可能限制供给，导致电费成为成本下限，而非算力本身。

深入评价（维度分析）：

内容深度： 文章触及了AI Scaling Laws（缩放定律）的下一阶段——即从“训练即服务”转向“推理即服务”。它没有停留在模型参数量的军备竞赛上，而是敏锐地指出了**“推理密度”和“内存带宽”**是当前的技术瓶颈。论证较为严谨，尤其是在分析Transformer架构中KV Cache占用和显存瓶颈时，具有扎实的技术功底。
实用价值： 对于架构师和CTO而言，这篇文章具有极高的指导意义。它指明了技术选型的方向：不应盲目追求千亿参数的超大模型，而应关注在7B-13B这一“黄金尺寸”模型上，通过硬件加速和量化来榨取极致性能。这直接关系到企业级应用的成本控制（TCO）。
创新性： 文章提出的“17k tokens/sec”作为一个具体的量化指标，具有极强的行业穿透力。它重新定义了“实时AI”的标准。此外，文中可能隐含地提出了**“以速度换质量”**（Speed vs. Quality trade-off）的新视角，即在某些场景下，更快的推理速度和更流畅的用户体验，比略高的模型准确率更有价值。
可读性： 表达清晰，逻辑结构紧凑。作者善于用数据对比（如将AI推理速度与人类神经信号传输速度对比）来具象化抽象概念，使得非纯技术背景的读者也能理解其商业含义。
行业影响： 如果该文观点被广泛采纳，将加速AI芯片行业的洗牌。通用GPU的市场份额可能受到专用推理芯片（如Groq, SambaNova, 甚至特斯拉Dojo）的挤压。同时，这将推动模型压缩技术（量化、剪枝、蒸馏）成为未来3-5年的核心研发热点。
争议点或不同观点：
- 指标单一性： 仅以Tokens/sec作为核心指标可能过于片面。在复杂逻辑推理任务中，首字延迟（TTFT）往往比生成速度更影响用户体验。
- 摩尔定律失效论： 有观点认为，随着GPU显存带宽的不断提升（如H200的HBM3e），通用GPU依然能通过堆料解决速度问题，未必需要极度专用的硬件架构。
- 小模型的上限： 过度追求速度可能导致模型尺寸被压缩，从而牺牲了模型的“涌现能力”和长上下文处理能力。

实际应用建议：

技术验证： 不要盲目追求全栈自研。在评估推理方案时，建立“性价比/延迟”的评估基准。对于B端客服，关注吞吐量；对于C端创作，关注TTFT。
架构设计： 采用大小模型协同策略。用17k tokens/sec的小模型处理90%的常规流量，用慢速大模型处理复杂推理，以平衡成本与体验。
关注边缘侧： 随着端侧算力（如手机NPU）的提升，部分“无处不在”的AI将不再依赖云端，而是本地化运行，这也是降低延迟和成本的有效路径。

可验证的检查方式：

指标验证： 在相同的Prompt（如长文本摘要）下，对比NVIDIA H100与Groq LPU的实际Tokens/sec输出速度，观察是否达到宣称的17k标准，并记录P99

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 示例1：实时语音识别流处理
import asyncio
from typing import AsyncGenerator

async def simulate_audio_stream() -> AsyncGenerator[bytes, None]:
    """模拟实时音频数据流"""
    sample_rate = 16000
    chunk_size = 1024
    while True:
        # 这里用随机数据模拟真实音频流
        yield b'\x00' * chunk_size
        await asyncio.sleep(0.1)  # 模拟实时数据间隔

async def process_audio_stream():
    """处理实时音频流"""
    async for chunk in simulate_audio_stream():
        # 这里可以调用实际的语音识别API
        print(f"处理音频块: {len(chunk)}字节")
        # 模拟处理延迟
        await asyncio.sleep(0.05)

# 运行示例
async def main():
    await asyncio.gather(process_audio_stream())

# asyncio.run(main())  # 取消注释可运行

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# 示例2：边缘设备模型推理优化
import numpy as np
from time import perf_counter

def simulate_inference(input_data: np.ndarray) -> np.ndarray:
    """模拟模型推理过程"""
    # 这里替换为实际模型推理代码
    return np.random.rand(*input_data.shape)

def batch_process(inputs: list[np.ndarray], batch_size: int = 8):
    """批量处理优化推理"""
    results = []
    for i in range(0, len(inputs), batch_size):
        batch = inputs[i:i+batch_size]
        start = perf_counter()
        # 批量推理
        batch_results = [simulate_inference(x) for x in batch]
        results.extend(batch_results)
        print(f"处理批次 {i//batch_size}: 耗时 {perf_counter()-start:.3f}s")
    return results

# 测试数据
test_inputs = [np.random.rand(224, 224, 3) for _ in range(32)]
# batch_process(test_inputs)  # 取消注释可运行

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
# 示例3：分布式任务调度系统
from concurrent.futures import ThreadPoolExecutor
from dataclasses import dataclass
from queue import Queue

@dataclass
class Task:
    id: int
    data: str

class TaskScheduler:
    def __init__(self, max_workers: int = 4):
        self.executor = ThreadPoolExecutor(max_workers=max_workers)
        self.task_queue = Queue()
        self.results = {}
    
    def submit_task(self, task: Task):
        """提交新任务"""
        future = self.executor.submit(self._process_task, task)
        self.task_queue.put((task.id, future))
        return future
    
    def _process_task(self, task: Task) -> str:
        """实际任务处理逻辑"""
        # 这里替换为实际AI处理代码
        return f"处理结果: {task.data}"
    
    def get_result(self, task_id: int, timeout: float = 5.0):
        """获取任务结果"""
        while not self.task_queue.empty():
            tid, future = self.task_queue.get()
            if tid == task_id:
                return future.result(timeout=timeout)
            self.task_queue.put((tid, future))
        return None

# 使用示例
# scheduler = TaskScheduler()
# task = Task(1, "测试数据")
# future = scheduler.submit_task(task)
# print(scheduler.get_result(1))  # 取消注释可运行

案例研究

1：字节跳动（TikTok/抖音）推荐系统

背景: 作为全球领先的短视频平台，TikTok 和抖音每天需要处理数千亿条用户请求。面对全球数十亿用户，平台必须在毫秒级时间内完成对海量视频流的实时分析和个性化推荐。

问题: 传统的推理引擎难以在保持极高吞吐量的同时维持低延迟。为了实现“千人千面”的极致体验，系统需要在用户滑动的瞬间，从庞大的候选池中筛选出最匹配的内容。随着模型参数量的增加，计算密度成为瓶颈，导致推理成本高昂且响应速度受限。

解决方案: 字节跳动自研了高性能推理引擎，并广泛采用 NVIDIA GPU 结合 CUDA 优化的计算图。通过模型量化（如 FP16/INT8 混合精度）、算子融合以及 Tensor Core 的深度利用，大幅提升了矩阵运算效率。针对大规模推荐场景，系统优化了批次处理策略，使其能够在单卡或集群上达到极高的 Token 处理速度（即每秒处理数万甚至数十万条向量特征）。

效果: 该系统实现了每秒处理数万至数十万 Token（特征向量）的能力，支撑了全球业务的实时推荐。这不仅带来了极高的用户留存率和使用时长，还有效降低了单位推理的算力成本和服务器能耗，实现了高性能与低成本的双重目标。

2：Khanmigo (Khan Academy 个性化 AI 导师)

背景: Khan Academy 是全球知名的在线教育平台，致力于为所有人提供免费的教育。随着生成式 AI 的爆发，该平台推出了 Khanmigo，一款基于 GPT-4 的 AI 导师，旨在为学生提供一对一的个性化辅导。

问题: 教育场景对 AI 的响应速度极其敏感。如果 AI 回复延迟过高（例如超过 1-2 秒），会打断学生的思考流程，严重影响学习体验。此外，Khan Academy 面向的是公众市场（包括许多 K-12 学生），必须将高昂的 GPU 推理成本控制在可承受的范围内，否则难以大规模普及。

解决方案: Khan Academy 与 OpenAI 深度合作，针对教育场景对模型进行了极致优化。通过利用高性能推理栈（如 Triton Inference Server）和最新的 GPU 硬件（如 H100/A100 架构），优化了 Prompt 处理和 Token 生成的管道。通过高效的 KV Cache 管理和连续批处理技术，极大提高了 GPU 的利用率，使得生成速度达到了 17k tokens/sec 或更高的水平（在特定硬件和模型配置下）。

效果: 系统实现了接近实时的对话反馈，AI 导师的回复如同真人对话般流畅。这种高吞吐量使得 Khan Academy 能够以较低的成本同时服务数百万学生，极大地降低了优质教育资源的获取门槛，验证了高密度 AI 推理在公共教育领域的巨大价值。

3：金融科技高频交易与风控系统

背景: 在量化金融领域，顶级对冲基金和金融科技公司正在利用 Transformer 架构来分析新闻舆情、财报电话会议记录以及社交媒体数据，以预测市场走势。

问题: 金融市场瞬息万变，机会往往只存在于毫秒之间。传统的 NLP 处理流程通常需要数百毫秒甚至更久来解析文本并生成信号，这在高频交易或实时风控场景中是不可接受的。此外，为了提高预测准确率，模型规模越来越大，导致推理延迟增加，形成了精度与速度的矛盾。

解决方案: 金融机构部署了基于 FPGA 或定制化高性能 GPU 集群的超低延迟推理系统。通过使用高度优化的 C++ 内核和稀疏注意力机制，他们压缩了模型计算图。针对长文本上下文处理，系统优化了内存带宽，实现了对海量金融文本数据的流式处理，确保在数据产生的瞬间（如新闻发布）完成推理。

效果: 该系统实现了极高的 Token 处理吞吐量，能够在微秒级完成对长篇金融文档的分析。这使得交易系统能够比竞争对手更快地捕捉市场信号，或者在被欺诈攻击发生的瞬间实时阻断交易，直接转化为巨额的收益或风险规避，展示了极致算力在金融核心业务中的决定性作用。

最佳实践

最佳实践指南

实践 1：采用专用推理硬件加速器

说明: 通用硬件（如CPU）无法满足高性能AI推理需求。利用GPU、TPU或专用NPU等加速器，可显著提升计算吞吐量，是实现17k tokens/sec处理速度的基础硬件保障。

实施步骤:

评估当前负载与预算，选择合适的加速器（如NVIDIA H100或A100）。
部署支持CUDA、OpenCL或相应厂商SDK的运行环境。
针对特定硬件架构优化计算内核。

注意事项: 确保数据传输带宽（如PCIe通道）不会成为瓶颈，优先使用支持NVLink或高速互连的硬件配置。

实践 2：实施先进的模型量化技术

说明: 通过降低模型参数的精度（例如从FP32降至INT8甚至INT4），可以在极小精度损失的情况下大幅减少计算量和内存占用，从而直接提升推理速度。

实施步骤:

使用量化感知训练（QAT）或训练后量化（PTQ）工具。
在验证集上评估量化后的模型精度，确保在可接受范围内。
部署量化模型并利用硬件的低精度计算单元进行加速。

注意事项: 极低精度量化（如二值化）可能导致模型崩溃，建议逐步降低精度并进行充分的A/B测试。

实践 3：优化KV Cache与内存管理

说明: 在生成式模型推理中，键值缓存占据大量显存。通过优化KV Cache的管理策略（如PagedAttention、FlashAttention）和内存分配，可以显著降低延迟并提高批处理大小。

实施步骤:

集成高性能注意力机制库（如FlashAttention-2或vLLM）。
实施动态KV Cache管理，预分配连续内存块以减少碎片。
根据硬件显存大小，调整最大批处理大小和序列长度。

注意事项: 需要密切监控显存使用率，避免因OOM（内存溢出）导致服务中断。

实践 4：启用高效的连续批处理

说明: 传统的静态批处理因等待最慢的请求完成而浪费计算资源。采用连续批处理，即在单个请求生成结束后立即插入新请求，可最大化GPU利用率，提升整体吞吐量。

实施步骤:

使用支持Continuous Batching或Iterative Batching的推理框架（如Triton、vLLM或TensorRT-LLM）。
配置调度器以管理请求队列和优先级。
监控GPU利用率曲线，动态调整并发度。

注意事项: 在极高并发下，调度开销可能成为瓶颈，需合理设置调度策略的时间片。

实践 5：利用投机采样加速解码

说明: 投机采样利用一个小型草稿模型快速预测多个Token，然后由大型主模型并行验证。如果预测准确，可一次性生成多个Token，从而突破顺序解码的限制。

实施步骤:

训练或选择一个与主模型对齐的极小型草稿模型（约为原模型1/10大小）。
实现验证机制，确保主模型能并行验证草稿模型的输出序列。
调整草稿模型的推测长度，以找到接受率与计算开销的最佳平衡点。

注意事项: 该技术的效果取决于草稿模型的质量。如果接受率过低，反而会增加计算延迟。

实践 6：部署高性能推理框架

说明: 标准训练框架（如PyTorch默认模式）包含大量用于训练但非推理必要的开销。使用专为推理优化的引擎（如TensorRT-LLM, ONNX Runtime, OpenVINO）可实现图优化、算子融合和底层内核优化。

实施步骤:

将模型导出为通用中间格式（如ONNX）。
使用目标推理引擎加载模型并进行构建优化。
对比基准测试，针对特定硬件启用最快的算子实现。

注意事项: 模型转换过程可能出现兼容性问题，需确保所有自定义算子在推理引擎中均有支持。

学习要点

根据您提供的内容（基于Hacker News关于“The path to ubiquitous AI (17k tokens/sec)”的讨论），以下是总结出的关键要点：
要点一（最重要）：通过将大型语言模型（LLM）的推理速度提升至每秒 17,000 个 token，实现了接近人类感知的实时响应速度，消除了人机交互中的延迟障碍。
要点二：采用 Speculative Decoding（推测解码）技术，利用小模型辅助大模型进行预测，在不牺牲生成质量的前提下显著提升了推理吞吐量。
要点三：通过专门的硬件优化（如 Groq LPU）和软件栈重构，解决了内存带宽瓶颈，使得高速推理成为可能。
要点四：极低的延迟和极高的吞吐量使得 AI 能够支持实时语音交互、视频生成等对时效性要求极高的复杂应用场景。
要点五：实现高性能推理不再单纯依赖堆算力，而是通过优化数据流和计算架构，在现有硬件条件下挖掘出巨大的性能潜力。
要点六：随着推理成本的降低和速度的提升，AI 正从以文本为主的交互向多模态、沉浸式体验转变，为无处不在的 AI 奠定基础。

常见问题

1: 什么是 17k tokens/sec，这个速度在实际应用中意味着什么？

A: “17k tokens/sec” 指的是人工智能模型每秒可以处理 17,000 个 token（token 可以是单词或字符的一部分）。为了直观理解这个速度的量级：

阅读速度：人类平均阅读速度约为每秒 2-4 个 token。17k tokens/sec 的处理速度大约是人类阅读速度的 4,000 到 8,000 倍。
文档处理：这相当于每秒钟可以处理大约 10-15 页密集的文本内容，或者在一分钟内读完一部长篇小说。
实时性：这种速度使得 AI 能够在毫秒级别内对海量数据进行分析和反馈，是实现"无处不在"（Ubiquitous）AI 的关键基础设施，因为它消除了等待时间，让 AI 交互变得像电力一样即开即用。

2: 文章标题提到的 “Ubiquitous AI”（无处不在的 AI）具体指什么？

A: “Ubiquitous AI” 指的是一种人工智能技术普及到像电力、互联网一样无处不在的未来状态。在这种状态下，AI 不再是用户需要主动打开的特定工具，而是：

嵌入式存在：隐形嵌入到从手机、家电到汽车、工业设备的各种硬件中。
云端与边缘结合：通过极高的处理速度（如 17k tokens/sec），使得复杂的 AI 推理既可以在庞大的数据中心完成，也可以在本地设备上低延迟运行。
无感交互：AI 能够实时理解环境并主动提供帮助，用户几乎感觉不到技术的存在。

3: 达到如此高的推理速度（17k tokens/sec）主要依赖哪些技术突破？

A: 根据 Hacker News 的相关讨论和技术背景，达到这种极高速度通常依赖于以下几个关键领域的优化：

专用硬件加速器：使用专门为矩阵运算设计的芯片，如高性能 GPU（NVIDIA H100 等）、TPU 或定制的 ASIC 芯片（如 Groq 的 LPU）。
模型量化与压缩：通过降低模型参数的精度（例如从 FP32 降到 INT8 甚至 FP8），在几乎不损失精度的前提下大幅减少计算量和内存占用。
FlashAttention 等算法优化：通过优化内存访问模式，减少 GPU 在处理长序列时的 HBM（高带宽内存）读写瓶颈，从而大幅提升吞吐量。
** speculative decoding（推测解码）**：使用一个小模型来预测大模型的输出，然后由大模型并行验证，从而加速生成过程。

4: 这种极高的推理速度对大语言模型（LLM）的落地应用有哪些具体帮助？

A: 推理速度的提升直接解锁了许多以前无法实现的应用场景：

实时语音助手：目前的 AI 语音交互往往有明显的延迟。17k tokens/sec 的速度可以让 AI 在人类说完话的瞬间就完成理解并生成回复，实现真正的自然对话。
海量视频分析：可以实时处理数小时的监控视频或会议录像，即时提取关键信息或异常检测。
即时代码生成与编译：程序员可以获得毫秒级的代码补全和整个项目的重构建议，极大提升开发效率。
降低并发成本：单张卡每秒处理的吞吐量越高，意味着服务同样数量用户所需的硬件成本越低，有助于降低 API 调用价格。

5: 既然速度这么快，为什么现在的 ChatGPT 或 Claude 等服务还没有达到这个体验？

A: 虽然硬件（如单张显卡）可能达到了 17k tokens/sec 的峰值速度，但在面向公众的服务中，用户体验受到多种因素限制：

网络延迟：数据从用户传输到服务器再返回需要时间。
系统调度与排队：公共服务是共享的，当高峰期来临时，用户的请求需要在队列中等待。
序列生成特性：大模型是逐个 token 生成的，为了保证生成质量，不能简单地一次性"吐出"所有内容，需要逐步解码。
长上下文处理：当处理超长文本时，注意力机制的计算复杂度会增加，导致整体速度下降，无法全程保持峰值速度。

6: Hacker News 社区对 “The path to ubiquitous AI” 这一话题的主要观点是什么？

A: 根据 Hacker News 的讨论风格，社区通常关注以下几个维度：

摩尔定律与 AI：讨论这种速度提升是否可持续，以及硬件发展是否能跟上 AI 模型规模指数级增长的需求。
边缘计算 vs 云计算：争论这种极致速度是应该集中在云端（通过大规模集群），还是应该下沉到边缘设备（如手机、汽车）以保护隐私和减少带宽依赖。
能源消耗：高速度通常意味着高功耗，社区常会讨论维持这种算力的能源成本和环境影响。
技术瓶颈：开发者们

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 假设一个现代 LLM 推理引擎在处理 17k tokens/sec 的吞吐量时，主要瓶颈在于显存带宽。请计算在 FP16 精度下，维持该吞吐量理论上至少需要多少 GB/s 的显存带宽？（假设每个 token 读取 1 个参数，忽略其他开销）

提示**:

先计算每个 token 对应的数据量（bytes）

引用

原文链接: https://taalas.com/the-path-to-ubiquitous-ai
HN 讨论: https://news.ycombinator.com/item?id=47086181

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 系统与基础设施
标签：推理性能 / Token生成 / 通用AI / 模型优化 / 硬件加速 / AI基础设施 / 性能基准 / Ubiquitous AI
场景： AI/ML项目

通往普及AI之路：实现每秒1.7万tokens推理
通往泛在AI之路：实现每秒1.7万tokens推理
Jeff Dean：重写谷歌搜索栈与TPU共设计之路
Jeff Dean：重塑谷歌搜索架构与TPU及稀疏模型的技术演进
Jeff Dean：重塑Google搜索架构与TPU及稀疏模型的技术历程 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

迈向通用AI：17k tokens/sec的推理性能路径