目录
LLM推理
条目:6
2026年二月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Taalas HC1 定制芯片实现 Llama 3.1 8B 推理速度 1.7 万 token/s 02-24
Taalas
定制芯片
ASIC |
[自动]
[HACKER_NEWS] | 4min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-20
推理加速
高性能计算
Token吞吐 |
[自动]
[HACKER_NEWS] | 2min | newspaper
纯C语言实现Mistral Voxtral 4B语音模型CPU推理 02-10
C语言
Mistral
Voxtral 4B |
[自动]
[ARXIV] | 5min | school
RRAttention:基于轮询移位的动态块稀疏注意力机制 02-06
RRAttention
稀疏注意力
长上下文 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
EWSJF:面向混合负载LLM推理的自适应调度器 01-30
LLM推理
调度器
vLLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
David Patterson重磅:LLM推理硬件的挑战与研究🚀! 01-25
LLM推理
硬件架构
David Patterson |
无匹配条目