LLM推理

条目：6

2026年二月 4 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Taalas HC1 定制芯片实现 Llama 3.1 8B 推理速度 1.7 万 token/s 02-24 Taalas 定制芯片 ASIC
[自动] [HACKER_NEWS]	4min	newspaper 通往普及AI之路：实现每秒1.7万tokens推理 02-20 推理加速高性能计算 Token吞吐
[自动] [HACKER_NEWS]	2min	newspaper 纯C语言实现Mistral Voxtral 4B语音模型CPU推理 02-10 C语言 Mistral Voxtral 4B
[自动] [ARXIV]	5min	school RRAttention：基于轮询移位的动态块稀疏注意力机制 02-06 RRAttention 稀疏注意力长上下文

2026年一月 2 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school EWSJF：面向混合负载LLM推理的自适应调度器 01-30 LLM推理调度器 vLLM
[自动] [HACKER_NEWS]	4min	newspaper David Patterson重磅：LLM推理硬件的挑战与研究🚀！ 01-25 LLM推理硬件架构 David Patterson