模型架构

条目：51

2026年三月 4 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	3min	newspaper MicroGPT：基于Transformer架构的轻量级代码生成模型 03-01 MicroGPT 代码生成 Transformer
[自动] [HACKER_NEWS]	5min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 算法实现算术推理
[自动] [HACKER_NEWS]	5min	newspaper 构建极简Transformer实现十位数加法运算 03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]	4min	newspaper 构建极简Transformer模型实现十位数加法运算 03-01 Transformer 算法推理算术运算

2026年二月 37 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper 构建极简Transformer模型实现十位数加法运算 02-28 Transformer 算法实现算术运算
[自动] [HACKER_NEWS]	4min	newspaper 最小Transformer模型实现两位数加法运算 02-28 Transformer 算法算术
[自动] [HACKER_NEWS]	4min	newspaper 能计算两位十进制数相加的最小 Transformer 模型 02-28 Transformer 算法推理算术运算
[自动] [HACKER_NEWS]	4min	newspaper 逆向工程挑战：解析神经网络架构与参数 02-27 逆向工程神经网络模型安全
[自动] [HACKER_NEWS]	4min	newspaper 逆向工程挑战：解析该神经网络架构 02-27 神经网络逆向工程模型架构
[自动] [BLOGS_PODCASTS]	2min	mic Transformer中的混合专家模型架构解析 02-27 Transformer MoE 混合专家
[自动] [ARXIV]	2min	school 缓解可读性代价：基于解耦证明者-验证者博弈的方法 02-27 LLM 可解释性模型评估
[自动] [BLOGS_PODCASTS]	3min	mic Transformer架构中的混合专家模型原理与应用 02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer 架构中的混合专家模型原理与优势 02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]	2min	mic Transformer中的混合专家模型：架构原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]	2min	mic Transformer架构中的混合专家模型原理与应用 02-26 Transformer MoE 混合专家模型
[自动] [HACKER_NEWS]	4min	newspaper 首个完全通用的计算机动作模型 02-26 通用模型计算机控制 Agent
[自动] [HACKER_NEWS]	4min	newspaper 首个完全通用的计算机动作模型 02-26 计算机动作模型通用模型 LLM
[自动] [JUEJIN]	2min	sticky_note_2 大模型非线性变换解析：从MLP到MoE的架构演进 02-26 非线性变换 MLP MoE
[自动] [ARXIV]	4min	school Test-Time训练结合KV绑定等价于线性注意力 02-26 TTT 线性注意力 KV绑定
[自动] [ARXIV]	4min	school KV绑定测试时训练等价于线性注意力 02-25 TTT 线性注意力 KV缓存
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的快速推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	5min	newspaper Mercury 2：基于扩散模型的最快推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的最快推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [ARXIV]	4min	school 强化快速权重与下一序列预测 02-19 REFINE 快速权重强化学习
[自动] [HACKER_NEWS]	5min	newspaper Step 3.5 Flash：快速思考与可靠执行 02-19 Step 3.5 Flash 推理模型快速响应
[自动] [ARXIV]	3min	school Avey-B：基于视觉基础模型的通用具身智能代理 02-19 Avey-B NLP Transformer
[自动] [BLOGS_PODCASTS]	2min	mic Jeff Dean：重写谷歌搜索栈与TPU共稀疏万亿参数模型 02-18 Jeff Dean TPU 稀疏模型
[自动] [JUEJIN]	2min	sticky_note_2 Qwen3.5-397B-A17B：极致稀疏MoE架构与多模态能力详解 02-17 Qwen3.5 MoE 多模态
[自动] [HACKER_NEWS]	7min	newspaper Qwen3.5：迈向原生多模态智能体 02-16 Qwen3.5 多模态智能体
[自动] [ARXIV]	3min	school Pensieve范式：有状态语言模型自主管理上下文 02-13 StateLM 有状态模型上下文管理
[自动] [HACKER_NEWS]	7min	newspaper GLM-5：面向复杂系统工程与长周期智能体任务 02-12 GLM-5 智能体系统工程
[自动] [HACKER_NEWS]	5min	newspaper GLM-5：面向复杂系统工程与长周期智能体任务 02-12 GLM-5 智能体系统工程
[自动] [HACKER_NEWS]	6min	newspaper GLM-5：面向复杂系统工程与长周期智能体任务 02-12 GLM-5 智能体系统工程
[自动] [HACKER_NEWS]	2min	newspaper GLM-5：面向复杂系统工程与长周期智能体任务 02-12 GLM-5 智能体系统工程
[自动] [ARXIV]	4min	school 伪可逆神经网络：通过伪可逆性提升模型可逆性 02-07 神经网络伪可逆 SPNN
[自动] [HACKER_NEWS]	3min	newspaper 超网络：用于处理层级数据的神经网络架构 02-06 超网络层级数据神经网络架构
[自动] [ARXIV]	3min	school 数据中的阈下效应：一种基于对数线性性的通用机制 02-05 LLM 数据质量 Logit-Linear-Selection

2026年一月 10 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：模型架构与性能评估 01-31 Kimi K2.5 技术报告模型架构
[自动] [HACKER_NEWS]	5min	newspaper Kimi K2.5 技术报告发布：模型架构与训练细节 01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：架构与性能细节 01-31 Kimi K2.5 Moonshot
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：模型架构与性能评估 01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：长上下文与多模态推理能力详解 01-31 Kimi K2.5 技术报告长上下文
[自动] [HACKER_NEWS]	4min	newspaper Kimi k2.5 技术报告发布 01-31 Kimi K2.5 技术报告
[自动] [HACKER_NEWS]	7min	newspaper 月之暗面发布 Kimi k2.5 技术报告 01-31 月之暗面 Kimi K2.5
[自动] [HACKER_NEWS]	6min	newspaper Kimi K2.5 技术报告发布：模型架构与性能评估 01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]	4min	newspaper Trinity Large：开源4000亿稀疏MoE模型 01-29 MoE 稀疏模型 Trinity
[自动] [ARXIV]	6min	school 🔥Post-LayerNorm强势回归！稳定、高效、深度训练的新神器！ 01-28 Transformer Post-LayerNorm Keel