注意力机制

条目：48

2026年二月 46 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school DySCO：面向长上下文大模型的动态注意力缩放解码方法 02-27 DySCO 长上下文解码算法
[自动] [ARXIV]	4min	school DySCO：面向长上下文大模型的动态注意力缩放解码 02-26 DySCO 长上下文注意力机制
[自动] [JUEJIN]	2min	sticky_note_2 大模型非线性变换解析：从MLP到MoE的架构演进 02-26 非线性变换 MLP MoE
[自动] [ARXIV]	6min	school Untied Ulysses：基于分头切分的高效上下文并行方案 02-26 上下文并行长序列 Transformer
[自动] [ARXIV]	6min	school Headwise Chunking：面向上下文并行的内存高效方案 02-25 上下文并行长文本训练内存优化
[自动] [ARXIV]	4min	school 面向扩散语言模型的感知汇点剪枝方法 02-22 扩散模型 DLM 模型剪枝
[自动] [ARXIV]	4min	school 面向扩散语言模型的Sink感知剪枝方法 02-20 扩散模型语言模型模型剪枝
[自动] [HACKER_NEWS]	5min	newspaper 基于注意力匹配机制实现快速KV压缩 02-20 KV压缩注意力机制推理优化
[自动] [HACKER_NEWS]	5min	newspaper 利用注意力匹配加速 KV 键值对压缩 02-20 KV压缩注意力机制推理加速
[自动] [HACKER_NEWS]	5min	newspaper 利用注意力匹配加速 KV 缓存压缩 02-20 KV Cache 注意力机制模型推理
[自动] [ARXIV]	5min	school Avey-B：基于注意力机制的高效视觉Transformer模型 02-18 Avey-B Transformer NLP
[自动] [ARXIV]	3min	school 长上下文LLM缩放缺陷：隐私与个性化任务揭示注意力分散 02-18 长上下文 LLM 个性化
[自动] [HACKER_NEWS]	7min	newspaper LCM：无损上下文管理技术论文 02-16 LCM 上下文管理无损
[自动] [ARXIV]	4min	school MonarchRT：面向实时视频生成的高效注意力机制 02-16 视频生成扩散模型注意力机制
[自动] [ARXIV]	4min	school AttentionRetriever：注意力层即长文档检索器 02-16 RAG 长文档检索
[自动] [ARXIV]	4min	school MonarchRT：面向实时视频生成的高效注意力机制 02-15 视频生成 DiT 注意力机制
[自动] [ARXIV]	3min	school AttentionRetriever：注意力层隐式实现长文档检索 02-15 RAG 长文档检索 AttentionRetriever
[自动] [ARXIV]	5min	school MonarchRT：面向实时视频生成的高效注意力机制 02-14 视频生成 DiT 注意力机制
[自动] [ARXIV]	4min	school AttentionRetriever：注意力层可作为长文档检索器 02-14 RAG 长文档检索 AttentionRetriever
[自动] [ARXIV]	4min	school MonarchRT：面向实时视频生成的高效注意力机制 02-13 MonarchRT 实时视频生成 DiT
[自动] [ARXIV]	4min	school AttentionRetriever：注意力层即长文档检索器 02-13 RAG 长文档检索 AttentionRetriever
[自动] [ARXIV]	4min	school 权重衰减提升语言模型可塑性 02-13 权重衰减模型可塑性微调
[自动] [ARXIV]	4min	school 权重衰减提升语言模型可塑性 02-12 LLM 权重衰减模型可塑性
[自动] [ARXIV]	5min	school AP-OOD：基于注意力池化的分布外检测方法 02-09 OOD检测注意力机制 NLP
[自动] [ARXIV]	4min	school AP-OOD：基于注意力池化的分布外检测方法 02-08 OOD检测注意力机制注意力池化
[自动] [ARXIV]	4min	school AP-OOD：基于注意力池化的分布外检测方法 02-07 OOD检测 NLP 注意力机制
[自动] [ARXIV]	5min	school AP-OOD：基于注意力池化的分布外检测方法 02-06 OOD检测注意力机制 NLP
[自动] [ARXIV]	5min	school RRAttention：基于轮询移位的动态块稀疏注意力机制 02-06 RRAttention 稀疏注意力长上下文
[自动] [ARXIV]	4min	school 研究揭示推理大模型生成虚假新闻的内在机制 02-06 LLM CoT 虚假新闻
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	4min	school 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06 多模态上下文学习 ICL
[自动] [ARXIV]	4min	school 强化注意力学习：基于奖励反馈的注意力机制优化方法 02-05 强化学习注意力机制多模态
[自动] [ARXIV]	3min	school 多层交叉注意力被证明是多模态上下文学习的最优解 02-05 多模态上下文学习 ICL
[自动] [HACKER_NEWS]	6min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	5min	newspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	8min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	5min	newspaper FlashAttention-T：张量化注意力机制实现方案 02-04 FlashAttention 张量化注意力机制
[自动] [HACKER_NEWS]	6min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	6min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-03 FlashAttention 注意力机制张量化
[自动] [ARXIV]	4min	school FOCUS：DLLMs 如何突破算力瓶颈 02-03 DLLMs 扩散模型推理加速
[自动] [ARXIV]	4min	school FOCUS：DLLMs如何突破算力瓶颈 02-02 DLLMs 扩散模型算力优化

2026年一月 2 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 探索Transformer在表格数据变分自编码器中的位置 01-30 Transformer VAE 表格数据
[自动] [ARXIV]	3min	school 基于相机-IMU融合的鲁棒路面分类数据集与框架 01-29 计算机视觉多模态融合 IMU