推理加速

条目：65

2026年二月 62 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型 Diffusion Model
[自动] [HACKER_NEWS]	5min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型 Diffusion Model
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	5min	newspaper Mercury 2：基于扩散模型的最快推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的最快推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的最快推理 LLM 02-25 Mercury 2 扩散模型推理模型
[自动] [BLOGS_PODCASTS]	4min	mic Taalas 定制芯片实现 Llama 3.1 8B 每秒 16960 tok/s 02-24 Taalas 定制芯片 ASIC
[自动] [BLOGS_PODCASTS]	4min	mic Taalas 定制芯片实现 Llama 3.1 推理速度 16960 tok/s 02-24 Taalas 定制芯片 ASIC
[自动] [BLOGS_PODCASTS]	3min	mic Taalas HC1 定制芯片实现 Llama 3.1 8B 推理速度 1.7 万 token/s 02-24 Taalas 定制芯片 ASIC
[自动] [JUEJIN]	2min	sticky_note_2 ArcFlow实现FLUX与Qwen推理40倍加速 02-24 ArcFlow FLUX Qwen
[自动] [BLOGS_PODCASTS]	2min	mic Taalas HC1 芯片实测：Llama 3.1 8B 跑出 16960 tok/s 02-24 Taalas 定制芯片 ASIC
[自动] [BLOGS_PODCASTS]	5min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-24 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]	2min	mic Taalas HC1 定制芯片实现 Llama 3.1 8B 每秒 16960 tok 02-24 Taalas 定制芯片 ASIC
[自动] [BLOGS_PODCASTS]	3min	mic Taalas HC1 定制芯片运行 Llama 3.1 8B 达 16960 tok/s 02-23 Taalas 定制芯片 ASIC
[自动] [BLOGS_PODCASTS]	3min	mic 使用Unsloth与Hugging Face Jobs免费训练AI模型 02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	4min	mic Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s 02-23 Taalas 定制芯片 ASIC
[自动] [BLOGS_PODCASTS]	3min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	3min	mic Taalas 定制芯片实现 Llama 3.1 8B 每秒 16960 tokens 02-23 Taalas ASIC 定制芯片
[自动] [BLOGS_PODCASTS]	2min	mic Taalas HC1 定制芯片实现 Llama 3.1 每秒 16960 tok 02-23 Taalas HC1 定制芯片 ASIC
[自动] [ARXIV]	4min	school 面向扩散语言模型的感知剪枝方法 02-23 扩散模型语言模型模型剪枝
[自动] [BLOGS_PODCASTS]	4min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-22 Unsloth Hugging Face LLM
[自动] [BLOGS_PODCASTS]	2min	mic Taalas HC1 芯片实测：Llama 3.1 8B 跑出 16960 tok/s 02-22 Taalas HC1 ASIC
[自动] [ARXIV]	4min	school 面向扩散语言模型的感知汇点剪枝方法 02-22 扩散模型 DLM 模型剪枝
[自动] [HACKER_NEWS]	4min	newspaper Taalas如何将大语言模型“打印”至芯片 02-22 Taalas LLM ASIC
[自动] [HACKER_NEWS]	4min	newspaper Taalas技术解析：如何将大语言模型直接印制于芯片 02-22 Taalas 模型固化 ASIC
[自动] [ARXIV]	5min	school 面向扩散语言模型的Sink感知剪枝方法 02-21 扩散模型语言模型模型剪枝
[自动] [BLOGS_PODCASTS]	3min	mic Taalas HC1 自研芯片运行 Llama 3.1 8B 达 16960 tok/s 02-21 Taalas HC1 ASIC
[自动] [HACKER_NEWS]	7min	newspaper 通往普及AI之路：实现每秒1.7万Token推理 02-21 推理加速 Token生成 AI普及
[自动] [HACKER_NEWS]	5min	newspaper 通往普及AI之路：实现每秒1.7万tokens推理 02-21 推理加速 Token生成性能优化
[自动] [BLOGS_PODCASTS]	5min	mic 使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-21 Unsloth Hugging Face 模型训练
[自动] [HACKER_NEWS]	4min	newspaper 通向无处不在的AI之路：实现每秒1.7万tokens推理 02-21 推理加速 Token生成 AI部署
[自动] [HACKER_NEWS]	5min	newspaper 通往泛在AI之路：实现每秒1.7万tokens推理 02-20 推理加速 Token生成泛在AI
[自动] [HACKER_NEWS]	4min	newspaper 一致性扩散语言模型提速14倍且无损质量 02-20 扩散模型一致性模型语言模型
[自动] [HACKER_NEWS]	4min	newspaper 通往无处不在的AI：实现每秒1.7万tokens推理 02-20 LLM 推理加速 Token
[自动] [HACKER_NEWS]	4min	newspaper 一致性扩散语言模型提速14倍且无损质量 02-20 扩散模型一致性模型语言模型
[自动] [HACKER_NEWS]	4min	newspaper 一致性扩散语言模型提速14倍且无损质量 02-20 扩散模型一致性模型语言模型
[自动] [HACKER_NEWS]	4min	newspaper 通往普及AI之路：实现每秒1.7万tokens推理 02-20 推理加速高性能计算 Token吞吐
[自动] [HACKER_NEWS]	4min	newspaper 一致性扩散语言模型提速14倍且无损质量 02-20 扩散模型一致性模型语言模型
[自动] [HACKER_NEWS]	5min	newspaper 利用注意力匹配加速 KV 键值对压缩 02-20 KV压缩注意力机制推理加速
[自动] [HACKER_NEWS]	6min	newspaper 一致性扩散语言模型提速14倍且无损质量 02-20 扩散模型一致性模型语言模型
[自动] [HACKER_NEWS]	4min	newspaper 一致性扩散语言模型提速14倍且无损质量 02-20 扩散模型一致性模型语言模型
[自动] [HACKER_NEWS]	4min	newspaper 开源模型 Step 3.5 Flash：支持高速深度推理 02-19 Step 3.5 Flash 开源模型深度推理
[自动] [HACKER_NEWS]	4min	newspaper LLM上下文学习机制与性能优化指南 02-18 LLM 上下文学习 ICL
[自动] [HACKER_NEWS]	4min	newspaper 英伟达基于晶圆级芯片加速推理的编程模型 02-17 英伟达晶圆级芯片推理加速
[自动] [HACKER_NEWS]	5min	newspaper 两种提升大模型推理速度的技术方法 02-15 LLM 推理加速 KV Cache
[自动] [HACKER_NEWS]	5min	newspaper 两种提升大模型推理速度的技术方法 02-15 LLM 推理加速 KV Cache
[自动] [HACKER_NEWS]	5min	newspaper 两种加速大模型推理的技术方法 02-15 LLM 推理加速 KV Cache
[自动] [ARXIV]	4min	school DAWN：面向扩散大模型的依赖感知快速推理 02-09 扩散模型 DAWN 并行解码
[自动] [ARXIV]	4min	school DFlash：基于块扩散的闪存推测解码方法 02-09 LLM 推理加速推测解码
[自动] [ARXIV]	4min	school DFlash：基于块扩散的闪存推测解码方法 02-08 LLM 推理加速推测解码
[自动] [ARXIV]	4min	school DFlash：基于块扩散的Flash推测解码方法 02-07 LLM 推理加速推测解码
[自动] [ARXIV]	5min	school DFlash：基于块扩散的Flash推测解码方法 02-06 LLM 推理加速推测解码
[自动] [HACKER_NEWS]	6min	newspaper 对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	5min	newspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper 基于对称泰勒近似实现恒定Token成本注意力机制 02-04 Attention机制 Taylor近似线性注意力
[自动] [HACKER_NEWS]	6min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [ARXIV]	4min	school FOCUS：DLLMs 如何突破算力瓶颈 02-03 DLLMs 扩散模型推理加速
[自动] [ARXIV]	4min	school FOCUS：DLLMs如何突破算力瓶颈 02-02 DLLMs 扩散模型算力优化

2026年一月 3 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	5min	newspaper Agent Skills：压缩智能体技能以提升模型效率 01-29 Agent 模型压缩效率优化
[自动] [ARXIV]	6min	school 🔥自回归+掩码扩散！下一代生成模型架构强势登场！ 01-27 扩散模型自回归语言建模
[自动] [HACKER_NEWS]	4min	newspaper 🔥编译模型到Megakernels！揭秘AI性能飞跃的核心黑科技！ 01-26 Megakernels 算子融合 CUDA