目录
显存优化
条目:11
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 6min | school
FlashOptim:面向内存高效训练的优化器 03-01
FlashOptim
显存优化
大模型训练 |
2026年二月
10 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
FlashOptim:面向内存高效训练的优化器 02-28
FlashOptim
大模型训练
显存优化 |
[自动]
[ARXIV] | 6min | school
Untied Ulysses:基于分头切分的高效上下文并行方案 02-26
上下文并行
长序列
Transformer |
[自动]
[HACKER_NEWS] | 6min | newspaper
单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B 02-22
Llama 3.1
LLM
推理优化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
单张RTX 3090运行Llama 3.1 70B:NVMe直通GPU方案 02-22
Llama 3.1
RTX 3090
NVMe |
[自动]
[HACKER_NEWS] | 6min | newspaper
Llama 3.1 70B 单卡 RTX 3090 部署:利用 NVMe 直连 GPU 绕过 CPU 02-22
Llama 3.1
RTX 3090
NVMe |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于注意力匹配机制实现快速KV压缩 02-20
KV压缩
注意力机制
推理优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 键值对压缩 02-20
KV压缩
注意力机制
推理加速 |
[自动]
[JUEJIN] | 2min | sticky_note_2
Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解 02-17
Qwen3.5
MoE
多模态 |
[自动]
[HACKER_NEWS] | 8min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
无匹配条目