terminal

AI Stack

rss_feed
SYS_STABLE
目录

Transformer

条目:118
2026年三月 44 篇
类型阅读条目
[自动] [ARXIV]
3minschool 仅解码器模型的机器翻译性别消歧诊断
03-20 机器翻译 性别偏见 仅解码器
[自动] [ARXIV]
4minschool Mixture-of-Depths 动态分配计算资源的注意力机制
03-17 MoDA 注意力机制 模型架构
[自动] [HACKER_NEWS]
1minnewspaper LLM 架构画廊:主流大语言模型结构概览
03-16 LLM Transformer 模型架构
[自动] [HACKER_NEWS]
1minnewspaper LLM Architecture Gallery
03-16 LLM 架构设计 模型部署
[自动] [HACKER_NEWS]
4minnewspaper LLM Architecture Gallery
03-16 LLM 架构设计 模型部署
[自动] [HACKER_NEWS]
1minnewspaper LLM 架构画廊:主流大语言模型结构解析
03-16 LLM 模型架构 Transformer
[自动] [HACKER_NEWS]
1minnewspaper 大语言模型架构图集
03-16 LLM 架构图 模型架构
[自动] [HACKER_NEWS]
1minnewspaper 大语言模型架构图集与设计概览
03-15 LLM 架构设计 Transformer
[自动] [HACKER_NEWS]
1minnewspaper LLM 架构画廊:主流大模型架构概览与设计对比
03-15 LLM Transformer 模型架构
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法优化
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法优化
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法创新
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法创新
[自动] [HACKER_NEWS]
1minnewspaper 在TPU上移植Flash Attention的实践与挑战
03-13 TPU Flash Attention 硬件加速
[自动] [ARXIV]
3minschool 大规模激活与注意力槽的机制解析
03-09 Transformer 注意力机制 Pre-norm
[自动] [ARXIV]
3minschool 大模型激活与注意力下沉机制解析
03-08 Transformer 注意力机制 Pre-Norm
[自动] [ARXIV]
4minschool 大模型激活机制研究:尖峰、稀疏性与注意力汇
03-07 Transformer 注意力机制 激活异常
[自动] [ARXIV]
3minschool 大模型激活与注意力下沉机制解析
03-06 Transformer 注意力机制 Pre-norm
[自动] [ARXIV]
3minschool SimpliHuMoN:简化人体运动预测
03-06 人体运动预测 SimpliHuMoN Transformer
[自动] [ARXIV]
3minschool SimpliHuMoN:简化人体运动预测的框架
03-05 人体运动预测 Transformer 计算机视觉
[自动] [ARXIV]
3minschool ZipMap:基于测试时训练的线性时间有状态3D重建
03-05 3D重建 计算机视觉 Transformer
[自动] [HACKER_NEWS]
1minnewspaper Speculative Decoding:大模型推理加速的投机解码技术
03-04 Speculative Decoding SSD 推理加速
[自动] [HACKER_NEWS]
1minnewspaper Speculative Decoding:SSD加速大模型推理
03-04 Speculative Decoding SSD 模型推理
[自动] [HACKER_NEWS]
1minnewspaper 推测性推测解码:SSD 加速大模型推理
03-04 SSD 推测解码 模型推理
[自动] [HACKER_NEWS]
1minnewspaper 推测性推测解码:SSD加速大模型推理
03-04 SSD 推测解码 模型推理
[自动] [HACKER_NEWS]
1minnewspaper 推测性推测解码:一种加速大模型推理的方法
03-04 SSD 推理加速 推测解码
[自动] [ARXIV]
3minschool 多尺度自适应邻域感知Transformer用于图欺诈检测
03-04 图神经网络 欺诈检测 Transformer
[自动] [ARXIV]
4minschool 从复杂动力学到DynFormer:重新思考PDE的Transformer架构
03-04 PDE求解 神经算子 Transformer
[自动] [ARXIV]
3minschool 深度序列模型中的概率学习与生成机制
03-03 深度序列模型 概率模型 贝叶斯方法
[自动] [ARXIV]
4minschool 模式寻优与均值寻优结合实现快速长视频生成
03-03 视频生成 扩散模型 Transformer
[自动] [ARXIV]
4minschool RNN引入动态记忆缓存机制以提升长序列建模能力
03-03 RNN 长序列建模 Memory Caching
[自动] [ARXIV]
4minschool 模式寻优结合均值寻优实现快速长视频生成
03-02 视频生成 扩散模型 Transformer
[自动] [ARXIV]
4minschool RNN引入记忆缓存机制以实现动态增长的存储能力
03-02 RNN 长上下文 Memory Caching
[自动] [JUEJIN]
2minsticky_note_2 KV Cache与位置编码:大模型推理加速原理
03-02 KV Cache 位置编码 推理加速
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT:基于微型Transformer的轻量级语言模型
03-02 MicroGPT Transformer 轻量级模型
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT 交互式原理解析
03-02 MicroGPT LLM Transformer
[自动] [JUEJIN]
2minsticky_note_2 大模型连载1:理解 Token 这一基础概念
03-02 Token LLM NLP
[自动] [JUEJIN]
2minsticky_note_2 大模型连载1:理解自然语言处理与大模型中的 Token 概念
03-01 Token NLP Transformer
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT 原理交互式解析
03-01 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]
5minnewspaper MicroGPT 交互式原理解析
03-01 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法实现 算术推理
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer实现十位数加法运算
03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 模型构建 算术运算
2026年二月 67 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
02-28 Transformer 算法实现 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 最小Transformer模型实现两位数加法运算
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
1minnewspaper 能对齐十位数加法运算的最小 Transformer 模型
02-28 Transformer 算法可解释性 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 能对齐十位数加法运算的最小Transformer模型
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
1minnewspaper 能计算两个10位数加法的最小Transformer模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 能计算两位十进制数相加的最小 Transformer 模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 能对齐十位数加法的最小Transformer模型
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
2minnewspaper 能计算两个10位数加法的最小Transformer模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 能对齐十位数加法运算的最小Transformer模型
02-28 Transformer 算法 算术
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型架构解析
02-27 Transformer MoE 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer 架构中的混合专家模型原理与优势
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型:架构原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 Transformer MoE 混合专家模型
[自动] [JUEJIN]
2minsticky_note_2 从隐藏向量到文本:LM Head 如何预测下一个词
02-26 LLM Transformer LM Head
[自动] [ARXIV]
5minschool Untied Ulysses:基于分头切分的高效上下文并行方案
02-26 上下文并行 长序列 Transformer
[自动] [ARXIV]
5minschool Headwise Chunking:面向上下文并行的内存高效方案
02-25 上下文并行 长文本训练 内存优化
[自动] [HACKER_NEWS]
1minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [JUEJIN]
1minsticky_note_2 大模型开发演进:从ChatGPT到多模态与A2A协作
02-24 LLM ChatGPT 多模态
[自动] [HACKER_NEWS]
2minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]
1minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [ARXIV]
4minschool U(d)子群导出自然RNN与Transformer架构
02-24 RNN Transformer 序列模型
[自动] [ARXIV]
4minschool U(d)子群自然导出RNN与Transformer架构
02-23 RNN Transformer U(d)
[自动] [BLOGS_PODCASTS]
4minmic Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s
02-23 Taalas 定制芯片 ASIC
[自动] [HACKER_NEWS]
1minnewspaper AI时间线:从Transformer(2017)到GPT-5.3(2026)的171个大模型
02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]
1minnewspaper AI Timeline:收录 171 个大语言模型发展时间线
02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]
1minnewspaper 利用注意力匹配加速 KV 缓存压缩
02-20 KV Cache 注意力机制 模型推理
[自动] [ARXIV]
4minschool 强化快速权重结合下一序列预测模型
02-20 REFINE 强化学习 快速权重
[自动] [HACKER_NEWS]
1minnewspaper LLM 上下文长度外推技术综述
02-19 LLM 上下文窗口 外推
[自动] [ARXIV]
3minschool Avey-B:基于视觉基础模型的通用具身智能代理
02-19 Avey-B NLP Transformer
[自动] [HACKER_NEWS]
4minnewspaper LLM上下文学习机制与性能优化指南
02-18 LLM 上下文学习 ICL
[自动] [ARXIV]
5minschool Avey-B:基于注意力机制的高效视觉Transformer模型
02-18 Avey-B Transformer NLP
[自动] [ARXIV]
5minschool CoPE-VideoLM:基于编解码基元的高效视频语言模型
02-17 VideoLM 视频理解 多模态
[自动] [HACKER_NEWS]
5minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-16 MicroGPT 可视化 浏览器
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-16 MicroGPT 浏览器 可视化
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的 GPT 模型
02-16 MicroGPT GPT 可视化
[自动] [ARXIV]
4minschool MonarchRT:面向实时视频生成的高效注意力机制
02-16 视频生成 扩散模型 注意力机制
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-16 MicroGPT 可视化 浏览器
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-15 MicroGPT 可视化 浏览器
[自动] [HACKER_NEWS]
5minnewspaper 两种加速大模型推理的技术方法
02-15 LLM 推理加速 KV Cache
[自动] [BLOGS_PODCASTS]
2minmic Boltz开源平台:基于AlphaFold技术赋能新一代分子发现
02-12 Boltz AlphaFold 药物发现
[自动] [BLOGS_PODCASTS]
3minmic Boltz 开源药物发现平台:延续 AlphaFold 技术赋能分子研究
02-12 Boltz AlphaFold 药物发现
[自动] [ARXIV]
3minschool 从缓存到寄存器:混合键合3D NPU实现细粒度FlashAttention
02-12 3D-Flow FlashAttention NPU
[自动] [ARXIV]
1minschool 循环Transformer的步级数据归因方法
02-11 Transformer 数据归因 模型可解释性
[自动] [ARXIV]
3minschool 蛋白质自回归建模:基于多尺度结构生成的方案
02-06 蛋白质生成 自回归模型 多尺度建模
[自动] [ARXIV]
4minschool 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性
02-06 多模态 上下文学习 ICL
[自动] [ARXIV]
3minschool 蛋白质多尺度结构生成的自回归建模方法
02-05 蛋白质生成 自回归模型 多尺度建模
[自动] [ARXIV]
3minschool 多层交叉注意力被证明是多模态上下文学习的最优解
02-05 多模态 上下文学习 ICL
[自动] [HACKER_NEWS]
6minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
5minnewspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
7minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
7minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
8minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
5minnewspaper FlashAttention-T:张量化注意力机制实现方案
02-04 FlashAttention 张量化 注意力机制
[自动] [HACKER_NEWS]
5minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-03 FlashAttention 注意力机制 张量化
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、算力与Scaling Laws
02-02 LLM Scaling Laws 智能体
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、扩展定律与中国角色
02-02 LLM 智能体 扩展定律
[自动] [ARXIV]
6minschool 混合线性注意力新架构:高效蒸馏与超长上下文处理
02-02 HALO HypeNet 混合架构
[自动] [ARXIV]
4minschool 混合线性注意力新架构:高效蒸馏与超长上下文处理
02-01 Transformer 混合架构 线性注意力
[自动] [BLOGS_PODCASTS]
2minmic 推出世界首个科学领域AI播客及工程师关注理由
02-01 AI for Science 播客 职业发展
2026年一月 7 篇
类型阅读条目
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与超长上下文建模
01-31 线性注意力 长上下文 混合架构
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与极长上下文处理
01-30 HALO HypeNet 长上下文
[自动] [ARXIV]
4minschool 探索Transformer在表格数据变分自编码器中的位置
01-30 Transformer VAE 表格数据
[自动] [ARXIV]
3minschool PatchFormer:基于分层掩码重建的零样本多步预测时序基础模型
01-30 时间序列 PatchFormer 零样本预测
[自动] [ARXIV]
4minschool 探索Transformer在表格数据变分自编码器中的位置
01-29 Transformer VAE 表格数据
[自动] [ARXIV]
6minschool 🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器!
01-28 Transformer Post-LayerNorm Keel
[自动] [HACKER_NEWS]
3minnewspaper 🔥 视频修复难题:如何攻克时间一致性?
01-25 视频修复 时序一致性 光流