terminal

AI Stack

rss_feed
SYS_STABLE
目录

LLM推理

条目:6
2026年二月 4 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Taalas HC1 定制芯片实现 Llama 3.1 8B 推理速度 1.7 万 token/s
02-24 Taalas 定制芯片 ASIC
[自动] [HACKER_NEWS]
4minnewspaper 通往普及AI之路:实现每秒1.7万tokens推理
02-20 推理加速 高性能计算 Token吞吐
[自动] [HACKER_NEWS]
2minnewspaper 纯C语言实现Mistral Voxtral 4B语音模型CPU推理
02-10 C语言 Mistral Voxtral 4B
[自动] [ARXIV]
5minschool RRAttention:基于轮询移位的动态块稀疏注意力机制
02-06 RRAttention 稀疏注意力 长上下文
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
3minschool EWSJF:面向混合负载LLM推理的自适应调度器
01-30 LLM推理 调度器 vLLM
[自动] [HACKER_NEWS]
4minnewspaper David Patterson重磅:LLM推理硬件的挑战与研究🚀!
01-25 LLM推理 硬件架构 David Patterson