目录
Transformer
条目:118
2026年三月
44 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
仅解码器模型的机器翻译性别消歧诊断 03-20
机器翻译
性别偏见
仅解码器 |
[自动]
[ARXIV] | 4min | school
Mixture-of-Depths 动态分配计算资源的注意力机制 03-17
MoDA
注意力机制
模型架构 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 架构画廊:主流大语言模型结构概览 03-16
LLM
Transformer
模型架构 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM Architecture Gallery 03-16
LLM
架构设计
模型部署 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM Architecture Gallery 03-16
LLM
架构设计
模型部署 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 架构画廊:主流大语言模型结构解析 03-16
LLM
模型架构
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
大语言模型架构图集 03-16
LLM
架构图
模型架构 |
[自动]
[HACKER_NEWS] | 1min | newspaper
大语言模型架构图集与设计概览 03-15
LLM
架构设计
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 架构画廊:主流大模型架构概览与设计对比 03-15
LLM
Transformer
模型架构 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在Transformer内部执行程序以实现指数级推理加速 03-13
Transformer
推理加速
算法优化 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在Transformer内部执行程序以实现指数级推理加速 03-13
Transformer
推理加速
算法优化 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在Transformer内部执行程序以实现指数级推理加速 03-13
Transformer
推理加速
算法创新 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在Transformer内部执行程序以实现指数级推理加速 03-13
Transformer
推理加速
算法创新 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在TPU上移植Flash Attention的实践与挑战 03-13
TPU
Flash Attention
硬件加速 |
[自动]
[ARXIV] | 3min | school
大规模激活与注意力槽的机制解析 03-09
Transformer
注意力机制
Pre-norm |
[自动]
[ARXIV] | 3min | school
大模型激活与注意力下沉机制解析 03-08
Transformer
注意力机制
Pre-Norm |
[自动]
[ARXIV] | 4min | school
大模型激活机制研究:尖峰、稀疏性与注意力汇 03-07
Transformer
注意力机制
激活异常 |
[自动]
[ARXIV] | 3min | school
大模型激活与注意力下沉机制解析 03-06
Transformer
注意力机制
Pre-norm |
[自动]
[ARXIV] | 3min | school
SimpliHuMoN:简化人体运动预测 03-06
人体运动预测
SimpliHuMoN
Transformer |
[自动]
[ARXIV] | 3min | school
SimpliHuMoN:简化人体运动预测的框架 03-05
人体运动预测
Transformer
计算机视觉 |
[自动]
[ARXIV] | 3min | school
ZipMap:基于测试时训练的线性时间有状态3D重建 03-05
3D重建
计算机视觉
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
Speculative Decoding:大模型推理加速的投机解码技术 03-04
Speculative Decoding
SSD
推理加速 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Speculative Decoding:SSD加速大模型推理 03-04
Speculative Decoding
SSD
模型推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
推测性推测解码:SSD 加速大模型推理 03-04
SSD
推测解码
模型推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
推测性推测解码:SSD加速大模型推理 03-04
SSD
推测解码
模型推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
推测性推测解码:一种加速大模型推理的方法 03-04
SSD
推理加速
推测解码 |
[自动]
[ARXIV] | 3min | school
多尺度自适应邻域感知Transformer用于图欺诈检测 03-04
图神经网络
欺诈检测
Transformer |
[自动]
[ARXIV] | 4min | school
从复杂动力学到DynFormer:重新思考PDE的Transformer架构 03-04
PDE求解
神经算子
Transformer |
[自动]
[ARXIV] | 3min | school
深度序列模型中的概率学习与生成机制 03-03
深度序列模型
概率模型
贝叶斯方法 |
[自动]
[ARXIV] | 4min | school
模式寻优与均值寻优结合实现快速长视频生成 03-03
视频生成
扩散模型
Transformer |
[自动]
[ARXIV] | 4min | school
RNN引入动态记忆缓存机制以提升长序列建模能力 03-03
RNN
长序列建模
Memory Caching |
[自动]
[ARXIV] | 4min | school
模式寻优结合均值寻优实现快速长视频生成 03-02
视频生成
扩散模型
Transformer |
[自动]
[ARXIV] | 4min | school
RNN引入记忆缓存机制以实现动态增长的存储能力 03-02
RNN
长上下文
Memory Caching |
[自动]
[JUEJIN] | 2min | sticky_note_2
KV Cache与位置编码:大模型推理加速原理 03-02
KV Cache
位置编码
推理加速 |
[自动]
[HACKER_NEWS] | 1min | newspaper
MicroGPT:基于微型Transformer的轻量级语言模型 03-02
MicroGPT
Transformer
轻量级模型 |
[自动]
[HACKER_NEWS] | 1min | newspaper
MicroGPT 交互式原理解析 03-02
MicroGPT
LLM
Transformer |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型连载1:理解 Token 这一基础概念 03-02
Token
LLM
NLP |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型连载1:理解自然语言处理与大模型中的 Token 概念 03-01
Token
NLP
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
MicroGPT 原理交互式解析 03-01
MicroGPT
LLM
Transformer |
[自动]
[HACKER_NEWS] | 5min | newspaper
MicroGPT 交互式原理解析 03-01
MicroGPT
LLM
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
算法实现
算术推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
构建极简Transformer实现十位数加法运算 03-01
Transformer
LLM
算法实现 |
[自动]
[HACKER_NEWS] | 1min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
模型构建
算术运算 |
2026年二月
67 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
构建极简Transformer模型实现十位数加法运算 02-28
Transformer
算法实现
算术运算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
最小Transformer模型实现两位数加法运算 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 1min | newspaper
能对齐十位数加法运算的最小 Transformer 模型 02-28
Transformer
算法可解释性
算术运算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
能对齐十位数加法运算的最小Transformer模型 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 1min | newspaper
能计算两个10位数加法的最小Transformer模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
能计算两位十进制数相加的最小 Transformer 模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
能对齐十位数加法的最小Transformer模型 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 2min | newspaper
能计算两个10位数加法的最小Transformer模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
能对齐十位数加法运算的最小Transformer模型 02-28
Transformer
算法
算术 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型架构解析 02-27
Transformer
MoE
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-27
Transformer
MoE
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer 架构中的混合专家模型原理与优势 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型:架构原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
Transformer
MoE
混合专家模型 |
[自动]
[JUEJIN] | 2min | sticky_note_2
从隐藏向量到文本:LM Head 如何预测下一个词 02-26
LLM
Transformer
LM Head |
[自动]
[ARXIV] | 5min | school
Untied Ulysses:基于分头切分的高效上下文并行方案 02-26
上下文并行
长序列
Transformer |
[自动]
[ARXIV] | 5min | school
Headwise Chunking:面向上下文并行的内存高效方案 02-25
上下文并行
长文本训练
内存优化 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[JUEJIN] | 1min | sticky_note_2
大模型开发演进:从ChatGPT到多模态与A2A协作 02-24
LLM
ChatGPT
多模态 |
[自动]
[HACKER_NEWS] | 2min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[ARXIV] | 4min | school
U(d)子群导出自然RNN与Transformer架构 02-24
RNN
Transformer
序列模型 |
[自动]
[ARXIV] | 4min | school
U(d)子群自然导出RNN与Transformer架构 02-23
RNN
Transformer
U(d) |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s 02-23
Taalas
定制芯片
ASIC |
[自动]
[HACKER_NEWS] | 1min | newspaper
AI时间线:从Transformer(2017)到GPT-5.3(2026)的171个大模型 02-23
LLM
时间线
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
AI Timeline:收录 171 个大语言模型发展时间线 02-23
LLM
时间线
Transformer |
[自动]
[HACKER_NEWS] | 1min | newspaper
利用注意力匹配加速 KV 缓存压缩 02-20
KV Cache
注意力机制
模型推理 |
[自动]
[ARXIV] | 4min | school
强化快速权重结合下一序列预测模型 02-20
REFINE
强化学习
快速权重 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 上下文长度外推技术综述 02-19
LLM
上下文窗口
外推 |
[自动]
[ARXIV] | 3min | school
Avey-B:基于视觉基础模型的通用具身智能代理 02-19
Avey-B
NLP
Transformer |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM上下文学习机制与性能优化指南 02-18
LLM
上下文学习
ICL |
[自动]
[ARXIV] | 5min | school
Avey-B:基于注意力机制的高效视觉Transformer模型 02-18
Avey-B
Transformer
NLP |
[自动]
[ARXIV] | 5min | school
CoPE-VideoLM:基于编解码基元的高效视频语言模型 02-17
VideoLM
视频理解
多模态 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-16
MicroGPT
可视化
浏览器 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-16
MicroGPT
浏览器
可视化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的 GPT 模型 02-16
MicroGPT
GPT
可视化 |
[自动]
[ARXIV] | 4min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-16
视频生成
扩散模型
注意力机制 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-16
MicroGPT
可视化
浏览器 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-15
MicroGPT
可视化
浏览器 |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种加速大模型推理的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Boltz开源平台:基于AlphaFold技术赋能新一代分子发现 02-12
Boltz
AlphaFold
药物发现 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Boltz 开源药物发现平台:延续 AlphaFold 技术赋能分子研究 02-12
Boltz
AlphaFold
药物发现 |
[自动]
[ARXIV] | 3min | school
从缓存到寄存器:混合键合3D NPU实现细粒度FlashAttention 02-12
3D-Flow
FlashAttention
NPU |
[自动]
[ARXIV] | 1min | school
循环Transformer的步级数据归因方法 02-11
Transformer
数据归因
模型可解释性 |
[自动]
[ARXIV] | 3min | school
蛋白质自回归建模:基于多尺度结构生成的方案 02-06
蛋白质生成
自回归模型
多尺度建模 |
[自动]
[ARXIV] | 4min | school
多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06
多模态
上下文学习
ICL |
[自动]
[ARXIV] | 3min | school
蛋白质多尺度结构生成的自回归建模方法 02-05
蛋白质生成
自回归模型
多尺度建模 |
[自动]
[ARXIV] | 3min | school
多层交叉注意力被证明是多模态上下文学习的最优解 02-05
多模态
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 8min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
FlashAttention-T:张量化注意力机制实现方案 02-04
FlashAttention
张量化
注意力机制 |
[自动]
[HACKER_NEWS] | 5min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-03
FlashAttention
注意力机制
张量化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、算力与Scaling Laws 02-02
LLM
Scaling Laws
智能体 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、扩展定律与中国角色 02-02
LLM
智能体
扩展定律 |
[自动]
[ARXIV] | 6min | school
混合线性注意力新架构:高效蒸馏与超长上下文处理 02-02
HALO
HypeNet
混合架构 |
[自动]
[ARXIV] | 4min | school
混合线性注意力新架构:高效蒸馏与超长上下文处理 02-01
Transformer
混合架构
线性注意力 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
推出世界首个科学领域AI播客及工程师关注理由 02-01
AI for Science
播客
职业发展 |
2026年一月
7 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
混合线性注意力新架构:高效蒸馏与超长上下文建模 01-31
线性注意力
长上下文
混合架构 |
[自动]
[ARXIV] | 5min | school
混合线性注意力新架构:高效蒸馏与极长上下文处理 01-30
HALO
HypeNet
长上下文 |
[自动]
[ARXIV] | 4min | school
探索Transformer在表格数据变分自编码器中的位置 01-30
Transformer
VAE
表格数据 |
[自动]
[ARXIV] | 3min | school
PatchFormer:基于分层掩码重建的零样本多步预测时序基础模型 01-30
时间序列
PatchFormer
零样本预测 |
[自动]
[ARXIV] | 4min | school
探索Transformer在表格数据变分自编码器中的位置 01-29
Transformer
VAE
表格数据 |
[自动]
[ARXIV] | 6min | school
🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器! 01-28
Transformer
Post-LayerNorm
Keel |
[自动]
[HACKER_NEWS] | 3min | newspaper
🔥 视频修复难题:如何攻克时间一致性? 01-25
视频修复
时序一致性
光流 |
无匹配条目