目录
推理加速
条目:65
2026年二月
62 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
Diffusion Model |
[自动]
[HACKER_NEWS] | 5min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
Diffusion Model |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Mercury 2:基于扩散模型的最快推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的最快推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的最快推理 LLM 02-25
Mercury 2
扩散模型
推理模型 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Taalas 定制芯片实现 Llama 3.1 8B 每秒 16960 tok/s 02-24
Taalas
定制芯片
ASIC |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Taalas 定制芯片实现 Llama 3.1 推理速度 16960 tok/s 02-24
Taalas
定制芯片
ASIC |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Taalas HC1 定制芯片实现 Llama 3.1 8B 推理速度 1.7 万 token/s 02-24
Taalas
定制芯片
ASIC |
[自动]
[JUEJIN] | 2min | sticky_note_2
ArcFlow实现FLUX与Qwen推理40倍加速 02-24
ArcFlow
FLUX
Qwen |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Taalas HC1 芯片实测:Llama 3.1 8B 跑出 16960 tok/s 02-24
Taalas
定制芯片
ASIC |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-24
Unsloth
Hugging Face
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Taalas HC1 定制芯片实现 Llama 3.1 8B 每秒 16960 tok 02-24
Taalas
定制芯片
ASIC |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Taalas HC1 定制芯片运行 Llama 3.1 8B 达 16960 tok/s 02-23
Taalas
定制芯片
ASIC |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用Unsloth与Hugging Face Jobs免费训练AI模型 02-23
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s 02-23
Taalas
定制芯片
ASIC |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-23
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Taalas 定制芯片实现 Llama 3.1 8B 每秒 16960 tokens 02-23
Taalas
ASIC
定制芯片 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Taalas HC1 定制芯片实现 Llama 3.1 每秒 16960 tok 02-23
Taalas HC1
定制芯片
ASIC |
[自动]
[ARXIV] | 4min | school
面向扩散语言模型的感知剪枝方法 02-23
扩散模型
语言模型
模型剪枝 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-22
Unsloth
Hugging Face
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Taalas HC1 芯片实测:Llama 3.1 8B 跑出 16960 tok/s 02-22
Taalas
HC1
ASIC |
[自动]
[ARXIV] | 4min | school
面向扩散语言模型的感知汇点剪枝方法 02-22
扩散模型
DLM
模型剪枝 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Taalas如何将大语言模型“打印”至芯片 02-22
Taalas
LLM
ASIC |
[自动]
[HACKER_NEWS] | 4min | newspaper
Taalas技术解析:如何将大语言模型直接印制于芯片 02-22
Taalas
模型固化
ASIC |
[自动]
[ARXIV] | 5min | school
面向扩散语言模型的Sink感知剪枝方法 02-21
扩散模型
语言模型
模型剪枝 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Taalas HC1 自研芯片运行 Llama 3.1 8B 达 16960 tok/s 02-21
Taalas
HC1
ASIC |
[自动]
[HACKER_NEWS] | 7min | newspaper
通往普及AI之路:实现每秒1.7万Token推理 02-21
推理加速
Token生成
AI普及 |
[自动]
[HACKER_NEWS] | 5min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-21
推理加速
Token生成
性能优化 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 Unsloth 与 Hugging Face Jobs 免费训练 AI 模型 02-21
Unsloth
Hugging Face
模型训练 |
[自动]
[HACKER_NEWS] | 4min | newspaper
通向无处不在的AI之路:实现每秒1.7万tokens推理 02-21
推理加速
Token生成
AI部署 |
[自动]
[HACKER_NEWS] | 5min | newspaper
通往泛在AI之路:实现每秒1.7万tokens推理 02-20
推理加速
Token生成
泛在AI |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
通往无处不在的AI:实现每秒1.7万tokens推理 02-20
LLM
推理加速
Token |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-20
推理加速
高性能计算
Token吞吐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 键值对压缩 02-20
KV压缩
注意力机制
推理加速 |
[自动]
[HACKER_NEWS] | 6min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
开源模型 Step 3.5 Flash:支持高速深度推理 02-19
Step 3.5 Flash
开源模型
深度推理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM上下文学习机制与性能优化指南 02-18
LLM
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 4min | newspaper
英伟达基于晶圆级芯片加速推理的编程模型 02-17
英伟达
晶圆级芯片
推理加速 |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种提升大模型推理速度的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种提升大模型推理速度的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种加速大模型推理的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[ARXIV] | 4min | school
DAWN:面向扩散大模型的依赖感知快速推理 02-09
扩散模型
DAWN
并行解码 |
[自动]
[ARXIV] | 4min | school
DFlash:基于块扩散的闪存推测解码方法 02-09
LLM
推理加速
推测解码 |
[自动]
[ARXIV] | 4min | school
DFlash:基于块扩散的闪存推测解码方法 02-08
LLM
推理加速
推测解码 |
[自动]
[ARXIV] | 4min | school
DFlash:基于块扩散的Flash推测解码方法 02-07
LLM
推理加速
推测解码 |
[自动]
[ARXIV] | 5min | school
DFlash:基于块扩散的Flash推测解码方法 02-06
LLM
推理加速
推测解码 |
[自动]
[HACKER_NEWS] | 6min | newspaper
对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于对称泰勒近似实现恒定Token成本注意力机制 02-04
Attention机制
Taylor近似
线性注意力 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[ARXIV] | 4min | school
FOCUS:DLLMs 如何突破算力瓶颈 02-03
DLLMs
扩散模型
推理加速 |
[自动]
[ARXIV] | 4min | school
FOCUS:DLLMs如何突破算力瓶颈 02-02
DLLMs
扩散模型
算力优化 |
2026年一月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent Skills:压缩智能体技能以提升模型效率 01-29
Agent
模型压缩
效率优化 |
[自动]
[ARXIV] | 6min | school
🔥自回归+掩码扩散!下一代生成模型架构强势登场! 01-27
扩散模型
自回归
语言建模 |
[自动]
[HACKER_NEWS] | 4min | newspaper
🔥编译模型到Megakernels!揭秘AI性能飞跃的核心黑科技! 01-26
Megakernels
算子融合
CUDA |
无匹配条目