Transformer

条目：79

2026年三月 5 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	3min	newspaper MicroGPT：基于Transformer架构的轻量级代码生成模型 03-01 MicroGPT 代码生成 Transformer
[自动] [HACKER_NEWS]	5min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 算法实现算术推理
[自动] [HACKER_NEWS]	5min	newspaper 构建极简Transformer实现十位数加法运算 03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]	4min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	4min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 模型构建算术运算

2026年二月 67 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper 构建极简Transformer模型实现十位数加法运算 02-28 Transformer 算法实现算术运算
[自动] [HACKER_NEWS]	4min	newspaper 最小Transformer模型实现两位数加法运算 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	7min	newspaper 能对齐十位数加法运算的最小 Transformer 模型 02-28 Transformer 算法可解释性算术运算
[自动] [HACKER_NEWS]	6min	newspaper 能对齐十位数加法运算的最小Transformer模型 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	5min	newspaper 能计算两个10位数加法的最小Transformer模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	4min	newspaper 能计算两位十进制数相加的最小 Transformer 模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	6min	newspaper 能对齐十位数加法的最小Transformer模型 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	6min	newspaper 能计算两个10位数加法的最小Transformer模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	6min	newspaper 能对齐十位数加法运算的最小Transformer模型 02-28 Transformer 算法算术
[自动] [BLOGS_PODCASTS]	2min	mic Transformer中的混合专家模型架构解析 02-27 Transformer MoE 混合专家
[自动] [BLOGS_PODCASTS]	3min	mic Transformer架构中的混合专家模型原理与应用 02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer 架构中的混合专家模型原理与优势 02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer中的混合专家模型：架构原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 Transformer MoE 混合专家模型
[自动] [JUEJIN]	2min	sticky_note_2 从隐藏向量到文本：LM Head 如何预测下一个词 02-26 LLM Transformer LM Head
[自动] [ARXIV]	6min	school Untied Ulysses：基于分头切分的高效上下文并行方案 02-26 上下文并行长序列 Transformer
[自动] [ARXIV]	6min	school Headwise Chunking：面向上下文并行的内存高效方案 02-25 上下文并行长文本训练内存优化
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [JUEJIN]	2min	sticky_note_2 大模型开发演进：从ChatGPT到多模态与A2A协作 02-24 LLM ChatGPT 多模态
[自动] [HACKER_NEWS]	5min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	4min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [ARXIV]	5min	school U(d)子群导出自然RNN与Transformer架构 02-24 RNN Transformer 序列模型
[自动] [ARXIV]	4min	school U(d)子群自然导出RNN与Transformer架构 02-23 RNN Transformer U(d)
[自动] [BLOGS_PODCASTS]	4min	mic Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s 02-23 Taalas 定制芯片 ASIC
[自动] [HACKER_NEWS]	6min	newspaper AI时间线：从Transformer（2017）到GPT-5.3（2026）的171个大模型 02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]	5min	newspaper AI Timeline：收录 171 个大语言模型发展时间线 02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]	5min	newspaper 利用注意力匹配加速 KV 缓存压缩 02-20 KV Cache 注意力机制模型推理
[自动] [ARXIV]	4min	school 强化快速权重结合下一序列预测模型 02-20 REFINE 强化学习快速权重
[自动] [HACKER_NEWS]	4min	newspaper LLM 上下文长度外推技术综述 02-19 LLM 上下文窗口外推
[自动] [ARXIV]	3min	school Avey-B：基于视觉基础模型的通用具身智能代理 02-19 Avey-B NLP Transformer
[自动] [HACKER_NEWS]	4min	newspaper LLM上下文学习机制与性能优化指南 02-18 LLM 上下文学习 ICL
[自动] [ARXIV]	5min	school Avey-B：基于注意力机制的高效视觉Transformer模型 02-18 Avey-B Transformer NLP
[自动] [ARXIV]	5min	school CoPE-VideoLM：基于编解码基元的高效视频语言模型 02-17 VideoLM 视频理解多模态
[自动] [HACKER_NEWS]	5min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-16 MicroGPT 可视化浏览器
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-16 MicroGPT 浏览器可视化
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的 GPT 模型 02-16 MicroGPT GPT 可视化
[自动] [ARXIV]	4min	school MonarchRT：面向实时视频生成的高效注意力机制 02-16 视频生成扩散模型注意力机制
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-16 MicroGPT 可视化浏览器
[自动] [HACKER_NEWS]	4min	newspaper Microgpt：可在浏览器中可视化的GPT模型 02-15 MicroGPT 可视化浏览器
[自动] [HACKER_NEWS]	5min	newspaper 两种加速大模型推理的技术方法 02-15 LLM 推理加速 KV Cache
[自动] [BLOGS_PODCASTS]	2min	mic Boltz开源平台：基于AlphaFold技术赋能新一代分子发现 02-12 Boltz AlphaFold 药物发现
[自动] [BLOGS_PODCASTS]	3min	mic Boltz 开源药物发现平台：延续 AlphaFold 技术赋能分子研究 02-12 Boltz AlphaFold 药物发现
[自动] [ARXIV]	3min	school 从缓存到寄存器：混合键合3D NPU实现细粒度FlashAttention 02-12 3D-Flow FlashAttention NPU
[自动] [ARXIV]	1min	school 循环Transformer的步级数据归因方法 02-11 Transformer 数据归因模型可解释性
[自动] [ARXIV]	3min	school 蛋白质自回归建模：基于多尺度结构生成的方案 02-06 蛋白质生成自回归模型多尺度建模
[自动] [ARXIV]	4min	school 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06 多模态上下文学习 ICL
[自动] [ARXIV]	3min	school 蛋白质多尺度结构生成的自回归建模方法 02-05 蛋白质生成自回归模型多尺度建模
[自动] [ARXIV]	3min	school 多层交叉注意力被证明是多模态上下文学习的最优解 02-05 多模态上下文学习 ICL
[自动] [HACKER_NEWS]	6min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	5min	newspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	7min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	8min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	5min	newspaper FlashAttention-T：张量化注意力机制实现方案 02-04 FlashAttention 张量化注意力机制
[自动] [HACKER_NEWS]	6min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-04 FlashAttention 注意力机制张量化
[自动] [HACKER_NEWS]	6min	newspaper FlashAttention-T：张量化注意力机制优化方案 02-03 FlashAttention 注意力机制张量化
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、算力与Scaling Laws 02-02 LLM Scaling Laws 智能体
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、扩展定律与中国角色 02-02 LLM 智能体扩展定律
[自动] [ARXIV]	6min	school 混合线性注意力新架构：高效蒸馏与超长上下文处理 02-02 HALO HypeNet 混合架构
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文处理 02-01 Transformer 混合架构线性注意力
[自动] [BLOGS_PODCASTS]	2min	mic 推出世界首个科学领域AI播客及工程师关注理由 02-01 AI for Science 播客职业发展

2026年一月 7 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文建模 01-31 线性注意力长上下文混合架构
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与极长上下文处理 01-30 HALO HypeNet 长上下文
[自动] [ARXIV]	4min	school 探索Transformer在表格数据变分自编码器中的位置 01-30 Transformer VAE 表格数据
[自动] [ARXIV]	3min	school PatchFormer：基于分层掩码重建的零样本多步预测时序基础模型 01-30 时间序列 PatchFormer 零样本预测
[自动] [ARXIV]	4min	school 探索Transformer在表格数据变分自编码器中的位置 01-29 Transformer VAE 表格数据
[自动] [ARXIV]	6min	school 🔥Post-LayerNorm强势回归！稳定、高效、深度训练的新神器！ 01-28 Transformer Post-LayerNorm Keel
[自动] [HACKER_NEWS]	3min	newspaper 🔥 视频修复难题：如何攻克时间一致性？ 01-25 视频修复时序一致性光流