terminal

AI Stack

rss_feed
SYS_STABLE
目录

Transformer

条目:79
2026年三月 5 篇
类型阅读条目
[自动] [HACKER_NEWS]
3minnewspaper MicroGPT:基于Transformer架构的轻量级代码生成模型
03-01 MicroGPT 代码生成 Transformer
[自动] [HACKER_NEWS]
5minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法实现 算术推理
[自动] [HACKER_NEWS]
5minnewspaper 构建极简Transformer实现十位数加法运算
03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]
4minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
4minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 模型构建 算术运算
2026年二月 67 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper 构建极简Transformer模型实现十位数加法运算
02-28 Transformer 算法实现 算术运算
[自动] [HACKER_NEWS]
4minnewspaper 最小Transformer模型实现两位数加法运算
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
7minnewspaper 能对齐十位数加法运算的最小 Transformer 模型
02-28 Transformer 算法可解释性 算术运算
[自动] [HACKER_NEWS]
6minnewspaper 能对齐十位数加法运算的最小Transformer模型
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
5minnewspaper 能计算两个10位数加法的最小Transformer模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
4minnewspaper 能计算两位十进制数相加的最小 Transformer 模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
6minnewspaper 能对齐十位数加法的最小Transformer模型
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
6minnewspaper 能计算两个10位数加法的最小Transformer模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
6minnewspaper 能对齐十位数加法运算的最小Transformer模型
02-28 Transformer 算法 算术
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型架构解析
02-27 Transformer MoE 混合专家
[自动] [BLOGS_PODCASTS]
3minmic Transformer架构中的混合专家模型原理与应用
02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer 架构中的混合专家模型原理与优势
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型:架构原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 Transformer MoE 混合专家模型
[自动] [JUEJIN]
2minsticky_note_2 从隐藏向量到文本:LM Head 如何预测下一个词
02-26 LLM Transformer LM Head
[自动] [ARXIV]
6minschool Untied Ulysses:基于分头切分的高效上下文并行方案
02-26 上下文并行 长序列 Transformer
[自动] [ARXIV]
6minschool Headwise Chunking:面向上下文并行的内存高效方案
02-25 上下文并行 长文本训练 内存优化
[自动] [HACKER_NEWS]
4minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [JUEJIN]
2minsticky_note_2 大模型开发演进:从ChatGPT到多模态与A2A协作
02-24 LLM ChatGPT 多模态
[自动] [HACKER_NEWS]
5minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]
4minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [ARXIV]
5minschool U(d)子群导出自然RNN与Transformer架构
02-24 RNN Transformer 序列模型
[自动] [ARXIV]
4minschool U(d)子群自然导出RNN与Transformer架构
02-23 RNN Transformer U(d)
[自动] [BLOGS_PODCASTS]
4minmic Taalas 定制芯片实现 Llama 3.1 8B 每用户 16960 tok/s
02-23 Taalas 定制芯片 ASIC
[自动] [HACKER_NEWS]
6minnewspaper AI时间线:从Transformer(2017)到GPT-5.3(2026)的171个大模型
02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]
5minnewspaper AI Timeline:收录 171 个大语言模型发展时间线
02-23 LLM 时间线 Transformer
[自动] [HACKER_NEWS]
5minnewspaper 利用注意力匹配加速 KV 缓存压缩
02-20 KV Cache 注意力机制 模型推理
[自动] [ARXIV]
4minschool 强化快速权重结合下一序列预测模型
02-20 REFINE 强化学习 快速权重
[自动] [HACKER_NEWS]
4minnewspaper LLM 上下文长度外推技术综述
02-19 LLM 上下文窗口 外推
[自动] [ARXIV]
3minschool Avey-B:基于视觉基础模型的通用具身智能代理
02-19 Avey-B NLP Transformer
[自动] [HACKER_NEWS]
4minnewspaper LLM上下文学习机制与性能优化指南
02-18 LLM 上下文学习 ICL
[自动] [ARXIV]
5minschool Avey-B:基于注意力机制的高效视觉Transformer模型
02-18 Avey-B Transformer NLP
[自动] [ARXIV]
5minschool CoPE-VideoLM:基于编解码基元的高效视频语言模型
02-17 VideoLM 视频理解 多模态
[自动] [HACKER_NEWS]
5minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-16 MicroGPT 可视化 浏览器
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-16 MicroGPT 浏览器 可视化
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的 GPT 模型
02-16 MicroGPT GPT 可视化
[自动] [ARXIV]
4minschool MonarchRT:面向实时视频生成的高效注意力机制
02-16 视频生成 扩散模型 注意力机制
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-16 MicroGPT 可视化 浏览器
[自动] [HACKER_NEWS]
4minnewspaper Microgpt:可在浏览器中可视化的GPT模型
02-15 MicroGPT 可视化 浏览器
[自动] [HACKER_NEWS]
5minnewspaper 两种加速大模型推理的技术方法
02-15 LLM 推理加速 KV Cache
[自动] [BLOGS_PODCASTS]
2minmic Boltz开源平台:基于AlphaFold技术赋能新一代分子发现
02-12 Boltz AlphaFold 药物发现
[自动] [BLOGS_PODCASTS]
3minmic Boltz 开源药物发现平台:延续 AlphaFold 技术赋能分子研究
02-12 Boltz AlphaFold 药物发现
[自动] [ARXIV]
3minschool 从缓存到寄存器:混合键合3D NPU实现细粒度FlashAttention
02-12 3D-Flow FlashAttention NPU
[自动] [ARXIV]
1minschool 循环Transformer的步级数据归因方法
02-11 Transformer 数据归因 模型可解释性
[自动] [ARXIV]
3minschool 蛋白质自回归建模:基于多尺度结构生成的方案
02-06 蛋白质生成 自回归模型 多尺度建模
[自动] [ARXIV]
4minschool 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性
02-06 多模态 上下文学习 ICL
[自动] [ARXIV]
3minschool 蛋白质多尺度结构生成的自回归建模方法
02-05 蛋白质生成 自回归模型 多尺度建模
[自动] [ARXIV]
3minschool 多层交叉注意力被证明是多模态上下文学习的最优解
02-05 多模态 上下文学习 ICL
[自动] [HACKER_NEWS]
6minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
5minnewspaper 基于对称性泰勒近似实现恒定每Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
7minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
7minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
8minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
5minnewspaper FlashAttention-T:张量化注意力机制实现方案
02-04 FlashAttention 张量化 注意力机制
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-03 FlashAttention 注意力机制 张量化
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、算力与Scaling Laws
02-02 LLM Scaling Laws 智能体
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、扩展定律与中国角色
02-02 LLM 智能体 扩展定律
[自动] [ARXIV]
6minschool 混合线性注意力新架构:高效蒸馏与超长上下文处理
02-02 HALO HypeNet 混合架构
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与超长上下文处理
02-01 Transformer 混合架构 线性注意力
[自动] [BLOGS_PODCASTS]
2minmic 推出世界首个科学领域AI播客及工程师关注理由
02-01 AI for Science 播客 职业发展
2026年一月 7 篇
类型阅读条目
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与超长上下文建模
01-31 线性注意力 长上下文 混合架构
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与极长上下文处理
01-30 HALO HypeNet 长上下文
[自动] [ARXIV]
4minschool 探索Transformer在表格数据变分自编码器中的位置
01-30 Transformer VAE 表格数据
[自动] [ARXIV]
3minschool PatchFormer:基于分层掩码重建的零样本多步预测时序基础模型
01-30 时间序列 PatchFormer 零样本预测
[自动] [ARXIV]
4minschool 探索Transformer在表格数据变分自编码器中的位置
01-29 Transformer VAE 表格数据
[自动] [ARXIV]
6minschool 🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器!
01-28 Transformer Post-LayerNorm Keel
[自动] [HACKER_NEWS]
3minnewspaper 🔥 视频修复难题:如何攻克时间一致性?
01-25 视频修复 时序一致性 光流