terminal

AI Stack

rss_feed
SYS_STABLE
目录

注意力机制

条目:48
2026年二月 46 篇
类型阅读条目
[自动] [ARXIV]
4minschool DySCO:面向长上下文大模型的动态注意力缩放解码方法
02-27 DySCO 长上下文 解码算法
[自动] [ARXIV]
4minschool DySCO:面向长上下文大模型的动态注意力缩放解码
02-26 DySCO 长上下文 注意力机制
[自动] [JUEJIN]
2minsticky_note_2 大模型非线性变换解析:从MLP到MoE的架构演进
02-26 非线性变换 MLP MoE
[自动] [ARXIV]
6minschool Untied Ulysses:基于分头切分的高效上下文并行方案
02-26 上下文并行 长序列 Transformer
[自动] [ARXIV]
6minschool Headwise Chunking:面向上下文并行的内存高效方案
02-25 上下文并行 长文本训练 内存优化
[自动] [ARXIV]
4minschool 面向扩散语言模型的感知汇点剪枝方法
02-22 扩散模型 DLM 模型剪枝
[自动] [ARXIV]
4minschool 面向扩散语言模型的Sink感知剪枝方法
02-20 扩散模型 语言模型 模型剪枝
[自动] [HACKER_NEWS]
5minnewspaper 基于注意力匹配机制实现快速KV压缩
02-20 KV压缩 注意力机制 推理优化
[自动] [HACKER_NEWS]
5minnewspaper 利用注意力匹配加速 KV 键值对压缩
02-20 KV压缩 注意力机制 推理加速
[自动] [HACKER_NEWS]
5minnewspaper 利用注意力匹配加速 KV 缓存压缩
02-20 KV Cache 注意力机制 模型推理
[自动] [ARXIV]
5minschool Avey-B:基于注意力机制的高效视觉Transformer模型
02-18 Avey-B Transformer NLP
[自动] [ARXIV]
3minschool 长上下文LLM缩放缺陷:隐私与个性化任务揭示注意力分散
02-18 长上下文 LLM 个性化
[自动] [HACKER_NEWS]
7minnewspaper LCM:无损上下文管理技术论文
02-16 LCM 上下文管理 无损
[自动] [ARXIV]
4minschool MonarchRT:面向实时视频生成的高效注意力机制
02-16 视频生成 扩散模型 注意力机制
[自动] [ARXIV]
4minschool AttentionRetriever:注意力层即长文档检索器
02-16 RAG 长文档 检索
[自动] [ARXIV]
4minschool MonarchRT:面向实时视频生成的高效注意力机制
02-15 视频生成 DiT 注意力机制
[自动] [ARXIV]
3minschool AttentionRetriever:注意力层隐式实现长文档检索
02-15 RAG 长文档检索 AttentionRetriever
[自动] [ARXIV]
5minschool MonarchRT:面向实时视频生成的高效注意力机制
02-14 视频生成 DiT 注意力机制
[自动] [ARXIV]
4minschool AttentionRetriever:注意力层可作为长文档检索器
02-14 RAG 长文档检索 AttentionRetriever
[自动] [ARXIV]
4minschool MonarchRT:面向实时视频生成的高效注意力机制
02-13 MonarchRT 实时视频生成 DiT
[自动] [ARXIV]
4minschool AttentionRetriever:注意力层即长文档检索器
02-13 RAG 长文档检索 AttentionRetriever
[自动] [ARXIV]
4minschool 权重衰减提升语言模型可塑性
02-13 权重衰减 模型可塑性 微调
[自动] [ARXIV]
4minschool 权重衰减提升语言模型可塑性
02-12 LLM 权重衰减 模型可塑性
[自动] [ARXIV]
5minschool AP-OOD:基于注意力池化的分布外检测方法
02-09 OOD检测 注意力机制 NLP
[自动] [ARXIV]
4minschool AP-OOD:基于注意力池化的分布外检测方法
02-08 OOD检测 注意力机制 注意力池化
[自动] [ARXIV]
4minschool AP-OOD:基于注意力池化的分布外检测方法
02-07 OOD检测 NLP 注意力机制
[自动] [ARXIV]
5minschool AP-OOD:基于注意力池化的分布外检测方法
02-06 OOD检测 注意力机制 NLP
[自动] [ARXIV]
5minschool RRAttention:基于轮询移位的动态块稀疏注意力机制
02-06 RRAttention 稀疏注意力 长上下文
[自动] [ARXIV]
4minschool 研究揭示推理大模型生成虚假新闻的内在机制
02-06 LLM CoT 虚假新闻
[自动] [ARXIV]
4minschool 强化注意力学习:通过奖励机制优化视觉注意力模型
02-06 强化学习 多模态 注意力机制
[自动] [ARXIV]
4minschool 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性
02-06 多模态 上下文学习 ICL
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [ARXIV]
3minschool 多层交叉注意力被证明是多模态上下文学习的最优解
02-05 多模态 上下文学习 ICL
[自动] [HACKER_NEWS]
6minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
5minnewspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
7minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
7minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
8minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
5minnewspaper FlashAttention-T:张量化注意力机制实现方案
02-04 FlashAttention 张量化 注意力机制
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-03 FlashAttention 注意力机制 张量化
[自动] [ARXIV]
4minschool FOCUS:DLLMs 如何突破算力瓶颈
02-03 DLLMs 扩散模型 推理加速
[自动] [ARXIV]
4minschool FOCUS:DLLMs如何突破算力瓶颈
02-02 DLLMs 扩散模型 算力优化
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
4minschool 探索Transformer在表格数据变分自编码器中的位置
01-30 Transformer VAE 表格数据
[自动] [ARXIV]
3minschool 基于相机-IMU融合的鲁棒路面分类数据集与框架
01-29 计算机视觉 多模态融合 IMU