Transformer

条目：123

2026年五月 4 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	1min	newspaper CODA：将Transformer块重写为GEMM-Epilogue程序 05-22 Transformer GEMM 推理加速
[自动] [ARXIV]	1min	school IVGT隐式视觉几何Transformer神经场景表示 05-18 3D重建神经渲染 Transformer
[自动] [ARXIV]	2min	school 扩散Transformer异常Token处理技术 05-07 扩散模型 Transformer 异常Token
[自动] [JUEJIN]	1min	sticky_note_2 Transformer架构：注意力机制如何支撑BERT与GPT模型 05-04 Transformer 注意力机制 BERT

2026年四月 1 篇

类型	阅读	条目
[自动] [ARXIV]	1min	school 深度学习在稳定性边界的泛化特性 04-22 深度学习泛化边缘稳定

2026年三月 44 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school 仅解码器模型的机器翻译性别消歧诊断 03-20 机器翻译性别偏见仅解码器
[自动] [ARXIV]	4min	school Mixture-of-Depths 动态分配计算资源的注意力机制 03-17 MoDA 注意力机制模型架构
[自动] [HACKER_NEWS]	1min	newspaper LLM 架构画廊：主流大语言模型结构概览 03-16 LLM Transformer 模型架构
[自动] [HACKER_NEWS]	1min	newspaper LLM Architecture Gallery 03-16 LLM 架构设计模型部署
[自动] [HACKER_NEWS]	4min	newspaper LLM Architecture Gallery 03-16 LLM 架构设计模型部署
[自动] [HACKER_NEWS]	1min	newspaper LLM 架构画廊：主流大语言模型结构解析 03-16 LLM 模型架构 Transformer
[自动] [HACKER_NEWS]	1min	newspaper 大语言模型架构图集 03-16 LLM 架构图模型架构
[自动] [HACKER_NEWS]	1min	newspaper 大语言模型架构图集与设计概览 03-15 LLM 架构设计 Transformer
[自动] [HACKER_NEWS]	1min	newspaper LLM 架构画廊：主流大模型架构概览与设计对比 03-15 LLM Transformer 模型架构
[自动] [HACKER_NEWS]	1min	newspaper 在Transformer内部执行程序以实现指数级推理加速 03-13 Transformer 推理加速算法优化
[自动] [HACKER_NEWS]	1min	newspaper 在Transformer内部执行程序以实现指数级推理加速 03-13 Transformer 推理加速算法优化
[自动] [HACKER_NEWS]	1min	newspaper 在Transformer内部执行程序以实现指数级推理加速 03-13 Transformer 推理加速算法创新
[自动] [HACKER_NEWS]	1min	newspaper 在Transformer内部执行程序以实现指数级推理加速 03-13 Transformer 推理加速算法创新
[自动] [HACKER_NEWS]	1min	newspaper 在TPU上移植Flash Attention的实践与挑战 03-13 TPU Flash Attention 硬件加速
[自动] [ARXIV]	3min	school 大规模激活与注意力槽的机制解析 03-09 Transformer 注意力机制 Pre-norm
[自动] [ARXIV]	3min	school 大模型激活与注意力下沉机制解析 03-08 Transformer 注意力机制 Pre-Norm
[自动] [ARXIV]	4min	school 大模型激活机制研究：尖峰、稀疏性与注意力汇 03-07 Transformer 注意力机制激活异常
[自动] [ARXIV]	3min	school 大模型激活与注意力下沉机制解析 03-06 Transformer 注意力机制 Pre-norm
[自动] [ARXIV]	3min	school SimpliHuMoN：简化人体运动预测 03-06 人体运动预测 SimpliHuMoN Transformer
[自动] [ARXIV]	3min	school SimpliHuMoN：简化人体运动预测的框架 03-05 人体运动预测 Transformer 计算机视觉
[自动] [ARXIV]	3min	school ZipMap：基于测试时训练的线性时间有状态3D重建 03-05 3D重建计算机视觉 Transformer
[自动] [HACKER_NEWS]	1min	newspaper Speculative Decoding：大模型推理加速的投机解码技术 03-04 Speculative Decoding SSD 推理加速
[自动] [HACKER_NEWS]	1min	newspaper Speculative Decoding：SSD加速大模型推理 03-04 Speculative Decoding SSD 模型推理
[自动] [HACKER_NEWS]	1min	newspaper 推测性推测解码：SSD 加速大模型推理 03-04 SSD 推测解码模型推理
[自动] [HACKER_NEWS]	1min	newspaper 推测性推测解码：SSD加速大模型推理 03-04 SSD 推测解码模型推理
[自动] [HACKER_NEWS]	1min	newspaper 推测性推测解码：一种加速大模型推理的方法 03-04 SSD 推理加速推测解码
[自动] [ARXIV]	3min	school 多尺度自适应邻域感知Transformer用于图欺诈检测 03-04 图神经网络欺诈检测 Transformer
[自动] [ARXIV]	4min	school 从复杂动力学到DynFormer：重新思考PDE的Transformer架构 03-04 PDE求解神经算子 Transformer
[自动] [ARXIV]	3min	school 深度序列模型中的概率学习与生成机制 03-03 深度序列模型概率模型贝叶斯方法
[自动] [ARXIV]	4min	school 模式寻优与均值寻优结合实现快速长视频生成 03-03 视频生成扩散模型 Transformer
[自动] [ARXIV]	4min	school RNN引入动态记忆缓存机制以提升长序列建模能力 03-03 RNN 长序列建模 Memory Caching
[自动] [ARXIV]	4min	school 模式寻优结合均值寻优实现快速长视频生成 03-02 视频生成扩散模型 Transformer
[自动] [ARXIV]	4min	school RNN引入记忆缓存机制以实现动态增长的存储能力 03-02 RNN 长上下文 Memory Caching
[自动] [JUEJIN]	2min	sticky_note_2 KV Cache与位置编码：大模型推理加速原理 03-02 KV Cache 位置编码推理加速
[自动] [HACKER_NEWS]	1min	newspaper MicroGPT：基于微型Transformer的轻量级语言模型 03-02 MicroGPT Transformer 轻量级模型
[自动] [HACKER_NEWS]	1min	newspaper MicroGPT 交互式原理解析 03-02 MicroGPT LLM Transformer
[自动] [JUEJIN]	2min	sticky_note_2 大模型连载1：理解 Token 这一基础概念 03-02 Token LLM NLP
[自动] [JUEJIN]	2min	sticky_note_2 大模型连载1：理解自然语言处理与大模型中的 Token 概念 03-01 Token NLP Transformer
[自动] [HACKER_NEWS]	1min	newspaper MicroGPT 原理交互式解析 03-01 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]	5min	newspaper MicroGPT 交互式原理解析 03-01 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]	1min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 算法实现算术推理
[自动] [HACKER_NEWS]	1min	newspaper 构建极简Transformer实现十位数加法运算 03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]	1min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	1min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 模型构建算术运算

2026年二月 67 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	1min	newspaper 构建极简Transformer模型实现十位数加法运算 02-28 Transformer 算法实现算术运算
[自动] [HACKER_NEWS]	1min	newspaper 最小Transformer模型实现两位数加法运算 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	1min	newspaper 能对齐十位数加法运算的最小 Transformer 模型 02-28 Transformer 算法可解释性算术运算
[自动] [HACKER_NEWS]	1min	newspaper 能对齐十位数加法运算的最小Transformer模型 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	1min	newspaper 能计算两个10位数加法的最小Transformer模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	1min	newspaper 能计算两位十进制数相加的最小 Transformer 模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	1min	newspaper 能对齐十位数加法的最小Transformer模型 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	2min	newspaper 能计算两个10位数加法的最小Transformer模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	1min	newspaper 能对齐十位数加法运算的最小Transformer模型 02-28 Transformer 算法算术
[自动] [BLOGS_PODCASTS]	2min	mic Transformer中的混合专家模型架构解析 02-27 Transformer MoE 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer 架构中的混合专家模型原理与优势 02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer中的混合专家模型：架构原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 Transformer MoE 混合专家模型
[自动] [JUEJIN]	2min	sticky_note_2 从隐藏向量到文本：LM Head 如何预测下一个词 02-26 LLM Transformer LM Head
[自动] [ARXIV]	5min	school Untied Ulysses：基于分头切分的高效上下文并行方案 02-26 上下文并行长序列 Transformer
[自动] [ARXIV]	5min	school Headwise Chunking：面向上下文并行的内存高效方案 02-25 上下文并行长文本训练内存优化
[自动] [HACKER_NEWS]	1min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [JUEJIN]	1min	sticky_note_2 大模型开发演进：从ChatGPT到多模态与A2A协作 02-24 LLM ChatGPT 多模态
[自动] [HACKER_NEWS]	2min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	1min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [ARXIV]	4min	school U(d)子群导出自然RNN与Transformer架构 02-24 RNN Transformer 序列模型
[自动] [ARXIV]	4min	school U(d)子群自然导出RNN与Transformer架构 02-23 RNN Transformer U(d)
[自动] [BLOGS_PODCASTS]	4min	mic Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s 02-23 Taalas 定制芯片 ASIC
[自动] [HACKER_NEWS]	1min	newspaper AI时间线：从Transformer（2017）到GPT-5.3（2026）的171个大模型 02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]	1min	newspaper AI Timeline：收录 171 个大语言模型发展时间线 02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]	1min	newspaper 利用注意力匹配加速 KV 缓存压缩 02-20 KV Cache 注意力机制模型推理
[自动] [ARXIV]	4min	school 强化快速权重结合下一序列预测模型 02-20 REFINE 强化学习快速权重
[自动] [HACKER_NEWS]	1min	newspaper LLM 上下文长度外推技术综述 02-19 LLM 上下文窗口外推
[自动] [ARXIV]	3min	school Avey-B：基于视觉基础模型的通用具身智能代理 02-19 Avey-B NLP Transformer
[自动] [HACKER_NEWS]	4min	newspaper LLM上下文学习机制与性能优化指南 02-18 LLM 上下文学习 ICL
[自动] [ARXIV]	5min	school Avey-B：基于注意力机制的高效视觉Transformer模型 02-18 Avey-B Transformer NLP
[自动] [ARXIV]	5min	school CoPE-VideoLM：基于编解码基元的高效视频语言模型 02-17 VideoLM 视频理解多模态
[自动] [HACKER_NEWS]	5min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-16 MicroGPT 可视化浏览器
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-16 MicroGPT 浏览器可视化
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的 GPT 模型 02-16 MicroGPT GPT 可视化
[自动] [ARXIV]	4min	school MonarchRT：面向实时视频生成的高效注意力机制 02-16 视频生成扩散模型注意力机制
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-16 MicroGPT 可视化浏览器
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-15 MicroGPT 可视化浏览器
[自动] [HACKER_NEWS]	5min	newspaper 两种加速大模型推理的技术方法 02-15 LLM 推理加速 KV Cache
[自动] [BLOGS_PODCASTS]	2min	mic Boltz开源平台：基于AlphaFold技术赋能新一代分子发现 02-12 Boltz AlphaFold 药物发现
[自动] [BLOGS_PODCASTS]	3min	mic Boltz 开源药物发现平台：延续 AlphaFold 技术赋能分子研究 02-12 Boltz AlphaFold 药物发现
[自动] [ARXIV]	3min	school 从缓存到寄存器：混合键合3D NPU实现细粒度FlashAttention 02-12 3D-Flow FlashAttention NPU
[自动] [ARXIV]	1min	school 循环Transformer的步级数据归因方法 02-11 Transformer 数据归因模型可解释性
[自动] [ARXIV]	3min	school 蛋白质自回归建模：基于多尺度结构生成的方案 02-06 蛋白质生成自回归模型多尺度建模
[自动] [ARXIV]	4min	school 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06 多模态上下文学习 ICL
[自动] [ARXIV]	3min	school 蛋白质多尺度结构生成的自回归建模方法 02-05 蛋白质生成自回归模型多尺度建模
[自动] [ARXIV]	3min	school 多层交叉注意力被证明是多模态上下文学习的最优解 02-05 多模态上下文学习 ICL
[自动] [HACKER_NEWS]	6min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	5min	newspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	8min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	5min	newspaper FlashAttention-T：张量化注意力机制实现方案 02-04 FlashAttention 张量化注意力机制
[自动] [HACKER_NEWS]	5min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	6min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-03 FlashAttention 注意力机制张量化
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、算力与Scaling Laws 02-02 LLM Scaling Laws 智能体
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、扩展定律与中国角色 02-02 LLM 智能体扩展定律
[自动] [ARXIV]	6min	school 混合线性注意力新架构：高效蒸馏与超长上下文处理 02-02 HALO HypeNet 混合架构
[自动] [ARXIV]	4min	school 混合线性注意力新架构：高效蒸馏与超长上下文处理 02-01 Transformer 混合架构线性注意力
[自动] [BLOGS_PODCASTS]	2min	mic 推出世界首个科学领域AI播客及工程师关注理由 02-01 AI for Science 播客职业发展

2026年一月 7 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文建模 01-31 线性注意力长上下文混合架构
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与极长上下文处理 01-30 HALO HypeNet 长上下文
[自动] [ARXIV]	4min	school 探索Transformer在表格数据变分自编码器中的位置 01-30 Transformer VAE 表格数据
[自动] [ARXIV]	3min	school PatchFormer：基于分层掩码重建的零样本多步预测时序基础模型 01-30 时间序列 PatchFormer 零样本预测
[自动] [ARXIV]	4min	school 探索Transformer在表格数据变分自编码器中的位置 01-29 Transformer VAE 表格数据
[自动] [ARXIV]	6min	school 🔥Post-LayerNorm强势回归！稳定、高效、深度训练的新神器！ 01-28 Transformer Post-LayerNorm Keel
[自动] [HACKER_NEWS]	3min	newspaper 🔥 视频修复难题：如何攻克时间一致性？ 01-25 视频修复时序一致性光流