目录
Transformer
条目:79
2026年三月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 3min | newspaper
MicroGPT:基于Transformer架构的轻量级代码生成模型 03-01
MicroGPT
代码生成
Transformer |
[自动]
[HACKER_NEWS] | 5min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
算法实现
算术推理 |
[自动]
[HACKER_NEWS] | 5min | newspaper
构建极简Transformer实现十位数加法运算 03-01
Transformer
LLM
算法实现 |
[自动]
[HACKER_NEWS] | 4min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 4min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
模型构建
算术运算 |
2026年二月
67 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
构建极简Transformer模型实现十位数加法运算 02-28
Transformer
算法实现
算术运算 |
[自动]
[HACKER_NEWS] | 4min | newspaper
最小Transformer模型实现两位数加法运算 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 7min | newspaper
能对齐十位数加法运算的最小 Transformer 模型 02-28
Transformer
算法可解释性
算术运算 |
[自动]
[HACKER_NEWS] | 6min | newspaper
能对齐十位数加法运算的最小Transformer模型 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 5min | newspaper
能计算两个10位数加法的最小Transformer模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 4min | newspaper
能计算两位十进制数相加的最小 Transformer 模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 6min | newspaper
能对齐十位数加法的最小Transformer模型 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 6min | newspaper
能计算两个10位数加法的最小Transformer模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 6min | newspaper
能对齐十位数加法运算的最小Transformer模型 02-28
Transformer
算法
算术 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型架构解析 02-27
Transformer
MoE
混合专家 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Transformer架构中的混合专家模型原理与应用 02-27
Transformer
MoE
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer 架构中的混合专家模型原理与优势 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型:架构原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
Transformer
MoE
混合专家模型 |
[自动]
[JUEJIN] | 2min | sticky_note_2
从隐藏向量到文本:LM Head 如何预测下一个词 02-26
LLM
Transformer
LM Head |
[自动]
[ARXIV] | 6min | school
Untied Ulysses:基于分头切分的高效上下文并行方案 02-26
上下文并行
长序列
Transformer |
[自动]
[ARXIV] | 6min | school
Headwise Chunking:面向上下文并行的内存高效方案 02-25
上下文并行
长文本训练
内存优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型开发演进:从ChatGPT到多模态与A2A协作 02-24
LLM
ChatGPT
多模态 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[ARXIV] | 5min | school
U(d)子群导出自然RNN与Transformer架构 02-24
RNN
Transformer
序列模型 |
[自动]
[ARXIV] | 4min | school
U(d)子群自然导出RNN与Transformer架构 02-23
RNN
Transformer
U(d) |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s 02-23
Taalas
定制芯片
ASIC |
[自动]
[HACKER_NEWS] | 6min | newspaper
AI时间线:从Transformer(2017)到GPT-5.3(2026)的171个大模型 02-23
LLM
时间线
Transformer |
[自动]
[HACKER_NEWS] | 5min | newspaper
AI Timeline:收录 171 个大语言模型发展时间线 02-23
LLM
时间线
Transformer |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 缓存压缩 02-20
KV Cache
注意力机制
模型推理 |
[自动]
[ARXIV] | 4min | school
强化快速权重结合下一序列预测模型 02-20
REFINE
强化学习
快速权重 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM 上下文长度外推技术综述 02-19
LLM
上下文窗口
外推 |
[自动]
[ARXIV] | 3min | school
Avey-B:基于视觉基础模型的通用具身智能代理 02-19
Avey-B
NLP
Transformer |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM上下文学习机制与性能优化指南 02-18
LLM
上下文学习
ICL |
[自动]
[ARXIV] | 5min | school
Avey-B:基于注意力机制的高效视觉Transformer模型 02-18
Avey-B
Transformer
NLP |
[自动]
[ARXIV] | 5min | school
CoPE-VideoLM:基于编解码基元的高效视频语言模型 02-17
VideoLM
视频理解
多模态 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-16
MicroGPT
可视化
浏览器 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-16
MicroGPT
浏览器
可视化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的 GPT 模型 02-16
MicroGPT
GPT
可视化 |
[自动]
[ARXIV] | 4min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-16
视频生成
扩散模型
注意力机制 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-16
MicroGPT
可视化
浏览器 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Microgpt:可在浏览器中可视化的GPT模型 02-15
MicroGPT
可视化
浏览器 |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种加速大模型推理的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Boltz开源平台:基于AlphaFold技术赋能新一代分子发现 02-12
Boltz
AlphaFold
药物发现 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Boltz 开源药物发现平台:延续 AlphaFold 技术赋能分子研究 02-12
Boltz
AlphaFold
药物发现 |
[自动]
[ARXIV] | 3min | school
从缓存到寄存器:混合键合3D NPU实现细粒度FlashAttention 02-12
3D-Flow
FlashAttention
NPU |
[自动]
[ARXIV] | 1min | school
循环Transformer的步级数据归因方法 02-11
Transformer
数据归因
模型可解释性 |
[自动]
[ARXIV] | 3min | school
蛋白质自回归建模:基于多尺度结构生成的方案 02-06
蛋白质生成
自回归模型
多尺度建模 |
[自动]
[ARXIV] | 4min | school
多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06
多模态
上下文学习
ICL |
[自动]
[ARXIV] | 3min | school
蛋白质多尺度结构生成的自回归建模方法 02-05
蛋白质生成
自回归模型
多尺度建模 |
[自动]
[ARXIV] | 3min | school
多层交叉注意力被证明是多模态上下文学习的最优解 02-05
多模态
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 7min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 8min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
FlashAttention-T:张量化注意力机制实现方案 02-04
FlashAttention
张量化
注意力机制 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-03
FlashAttention
注意力机制
张量化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、算力与Scaling Laws 02-02
LLM
Scaling Laws
智能体 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、扩展定律与中国角色 02-02
LLM
智能体
扩展定律 |
[自动]
[ARXIV] | 6min | school
混合线性注意力新架构:高效蒸馏与超长上下文处理 02-02
HALO
HypeNet
混合架构 |
[自动]
[ARXIV] | 5min | school
混合线性注意力新架构:高效蒸馏与超长上下文处理 02-01
Transformer
混合架构
线性注意力 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
推出世界首个科学领域AI播客及工程师关注理由 02-01
AI for Science
播客
职业发展 |
2026年一月
7 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
混合线性注意力新架构:高效蒸馏与超长上下文建模 01-31
线性注意力
长上下文
混合架构 |
[自动]
[ARXIV] | 5min | school
混合线性注意力新架构:高效蒸馏与极长上下文处理 01-30
HALO
HypeNet
长上下文 |
[自动]
[ARXIV] | 4min | school
探索Transformer在表格数据变分自编码器中的位置 01-30
Transformer
VAE
表格数据 |
[自动]
[ARXIV] | 3min | school
PatchFormer:基于分层掩码重建的零样本多步预测时序基础模型 01-30
时间序列
PatchFormer
零样本预测 |
[自动]
[ARXIV] | 4min | school
探索Transformer在表格数据变分自编码器中的位置 01-29
Transformer
VAE
表格数据 |
[自动]
[ARXIV] | 6min | school
🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器! 01-28
Transformer
Post-LayerNorm
Keel |
[自动]
[HACKER_NEWS] | 3min | newspaper
🔥 视频修复难题:如何攻克时间一致性? 01-25
视频修复
时序一致性
光流 |
无匹配条目