目录
注意力机制
条目:48
2026年二月
46 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
DySCO:面向长上下文大模型的动态注意力缩放解码方法 02-27
DySCO
长上下文
解码算法 |
[自动]
[ARXIV] | 4min | school
DySCO:面向长上下文大模型的动态注意力缩放解码 02-26
DySCO
长上下文
注意力机制 |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型非线性变换解析:从MLP到MoE的架构演进 02-26
非线性变换
MLP
MoE |
[自动]
[ARXIV] | 6min | school
Untied Ulysses:基于分头切分的高效上下文并行方案 02-26
上下文并行
长序列
Transformer |
[自动]
[ARXIV] | 6min | school
Headwise Chunking:面向上下文并行的内存高效方案 02-25
上下文并行
长文本训练
内存优化 |
[自动]
[ARXIV] | 4min | school
面向扩散语言模型的感知汇点剪枝方法 02-22
扩散模型
DLM
模型剪枝 |
[自动]
[ARXIV] | 4min | school
面向扩散语言模型的Sink感知剪枝方法 02-20
扩散模型
语言模型
模型剪枝 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于注意力匹配机制实现快速KV压缩 02-20
KV压缩
注意力机制
推理优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 键值对压缩 02-20
KV压缩
注意力机制
推理加速 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 缓存压缩 02-20
KV Cache
注意力机制
模型推理 |
[自动]
[ARXIV] | 5min | school
Avey-B:基于注意力机制的高效视觉Transformer模型 02-18
Avey-B
Transformer
NLP |
[自动]
[ARXIV] | 3min | school
长上下文LLM缩放缺陷:隐私与个性化任务揭示注意力分散 02-18
长上下文
LLM
个性化 |
[自动]
[HACKER_NEWS] | 7min | newspaper
LCM:无损上下文管理技术论文 02-16
LCM
上下文管理
无损 |
[自动]
[ARXIV] | 4min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-16
视频生成
扩散模型
注意力机制 |
[自动]
[ARXIV] | 4min | school
AttentionRetriever:注意力层即长文档检索器 02-16
RAG
长文档
检索 |
[自动]
[ARXIV] | 4min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-15
视频生成
DiT
注意力机制 |
[自动]
[ARXIV] | 3min | school
AttentionRetriever:注意力层隐式实现长文档检索 02-15
RAG
长文档检索
AttentionRetriever |
[自动]
[ARXIV] | 5min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-14
视频生成
DiT
注意力机制 |
[自动]
[ARXIV] | 4min | school
AttentionRetriever:注意力层可作为长文档检索器 02-14
RAG
长文档检索
AttentionRetriever |
[自动]
[ARXIV] | 4min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-13
MonarchRT
实时视频生成
DiT |
[自动]
[ARXIV] | 4min | school
AttentionRetriever:注意力层即长文档检索器 02-13
RAG
长文档检索
AttentionRetriever |
[自动]
[ARXIV] | 4min | school
权重衰减提升语言模型可塑性 02-13
权重衰减
模型可塑性
微调 |
[自动]
[ARXIV] | 4min | school
权重衰减提升语言模型可塑性 02-12
LLM
权重衰减
模型可塑性 |
[自动]
[ARXIV] | 5min | school
AP-OOD:基于注意力池化的分布外检测方法 02-09
OOD检测
注意力机制
NLP |
[自动]
[ARXIV] | 4min | school
AP-OOD:基于注意力池化的分布外检测方法 02-08
OOD检测
注意力机制
注意力池化 |
[自动]
[ARXIV] | 4min | school
AP-OOD:基于注意力池化的分布外检测方法 02-07
OOD检测
NLP
注意力机制 |
[自动]
[ARXIV] | 5min | school
AP-OOD:基于注意力池化的分布外检测方法 02-06
OOD检测
注意力机制
NLP |
[自动]
[ARXIV] | 5min | school
RRAttention:基于轮询移位的动态块稀疏注意力机制 02-06
RRAttention
稀疏注意力
长上下文 |
[自动]
[ARXIV] | 4min | school
研究揭示推理大模型生成虚假新闻的内在机制 02-06
LLM
CoT
虚假新闻 |
[自动]
[ARXIV] | 4min | school
强化注意力学习:通过奖励机制优化视觉注意力模型 02-06
强化学习
多模态
注意力机制 |
[自动]
[ARXIV] | 4min | school
多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06
多模态
上下文学习
ICL |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[ARXIV] | 3min | school
多层交叉注意力被证明是多模态上下文学习的最优解 02-05
多模态
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 8min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
FlashAttention-T:张量化注意力机制实现方案 02-04
FlashAttention
张量化
注意力机制 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-03
FlashAttention
注意力机制
张量化 |
[自动]
[ARXIV] | 4min | school
FOCUS:DLLMs 如何突破算力瓶颈 02-03
DLLMs
扩散模型
推理加速 |
[自动]
[ARXIV] | 4min | school
FOCUS:DLLMs如何突破算力瓶颈 02-02
DLLMs
扩散模型
算力优化 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
探索Transformer在表格数据变分自编码器中的位置 01-30
Transformer
VAE
表格数据 |
[自动]
[ARXIV] | 3min | school
基于相机-IMU融合的鲁棒路面分类数据集与框架 01-29
计算机视觉
多模态融合
IMU |
无匹配条目