terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型架构

条目:51
2026年三月 4 篇
类型阅读条目
[自动] [HACKER_NEWS]
3minnewspaper MicroGPT:基于Transformer架构的轻量级代码生成模型
03-01 MicroGPT 代码生成 Transformer
[自动] [HACKER_NEWS]
5minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法实现 算术推理
[自动] [HACKER_NEWS]
5minnewspaper 构建极简Transformer实现十位数加法运算
03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]
4minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法推理 算术运算
2026年二月 37 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper 构建极简Transformer模型实现十位数加法运算
02-28 Transformer 算法实现 算术运算
[自动] [HACKER_NEWS]
4minnewspaper 最小Transformer模型实现两位数加法运算
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
4minnewspaper 能计算两位十进制数相加的最小 Transformer 模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
4minnewspaper 逆向工程挑战:解析神经网络架构与参数
02-27 逆向工程 神经网络 模型安全
[自动] [HACKER_NEWS]
4minnewspaper 逆向工程挑战:解析该神经网络架构
02-27 神经网络 逆向工程 模型架构
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型架构解析
02-27 Transformer MoE 混合专家
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [BLOGS_PODCASTS]
3minmic Transformer架构中的混合专家模型原理与应用
02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer 架构中的混合专家模型原理与优势
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型:架构原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 Transformer MoE 混合专家模型
[自动] [HACKER_NEWS]
4minnewspaper 首个完全通用的计算机动作模型
02-26 通用模型 计算机控制 Agent
[自动] [HACKER_NEWS]
4minnewspaper 首个完全通用的计算机动作模型
02-26 计算机动作模型 通用模型 LLM
[自动] [JUEJIN]
2minsticky_note_2 大模型非线性变换解析:从MLP到MoE的架构演进
02-26 非线性变换 MLP MoE
[自动] [ARXIV]
4minschool Test-Time训练结合KV绑定等价于线性注意力
02-26 TTT 线性注意力 KV绑定
[自动] [ARXIV]
4minschool KV绑定测试时训练等价于线性注意力
02-25 TTT 线性注意力 KV缓存
[自动] [HACKER_NEWS]
4minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [HACKER_NEWS]
4minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [HACKER_NEWS]
5minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [HACKER_NEWS]
4minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [ARXIV]
4minschool 强化快速权重与下一序列预测
02-19 REFINE 快速权重 强化学习
[自动] [HACKER_NEWS]
5minnewspaper Step 3.5 Flash:快速思考与可靠执行
02-19 Step 3.5 Flash 推理模型 快速响应
[自动] [ARXIV]
3minschool Avey-B:基于视觉基础模型的通用具身智能代理
02-19 Avey-B NLP Transformer
[自动] [BLOGS_PODCASTS]
2minmic Jeff Dean:重写谷歌搜索栈与TPU共稀疏万亿参数模型
02-18 Jeff Dean TPU 稀疏模型
[自动] [JUEJIN]
2minsticky_note_2 Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解
02-17 Qwen3.5 MoE 多模态
[自动] [HACKER_NEWS]
7minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [ARXIV]
3minschool Pensieve范式:有状态语言模型自主管理上下文
02-13 StateLM 有状态模型 上下文管理
[自动] [HACKER_NEWS]
7minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [HACKER_NEWS]
5minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [HACKER_NEWS]
6minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [HACKER_NEWS]
2minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [ARXIV]
4minschool 伪可逆神经网络:通过伪可逆性提升模型可逆性
02-07 神经网络 伪可逆 SPNN
[自动] [HACKER_NEWS]
3minnewspaper 超网络:用于处理层级数据的神经网络架构
02-06 超网络 层级数据 神经网络架构
[自动] [ARXIV]
3minschool 数据中的阈下效应:一种基于对数线性性的通用机制
02-05 LLM 数据质量 Logit-Linear-Selection
2026年一月 10 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:模型架构与性能评估
01-31 Kimi K2.5 技术报告 模型架构
[自动] [HACKER_NEWS]
5minnewspaper Kimi K2.5 技术报告发布:模型架构与训练细节
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:架构与性能细节
01-31 Kimi K2.5 Moonshot
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:模型架构与性能评估
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解
01-31 Kimi K2.5 技术报告 长上下文
[自动] [HACKER_NEWS]
4minnewspaper Kimi k2.5 技术报告发布
01-31 Kimi K2.5 技术报告
[自动] [HACKER_NEWS]
7minnewspaper 月之暗面发布 Kimi k2.5 技术报告
01-31 月之暗面 Kimi K2.5
[自动] [HACKER_NEWS]
6minnewspaper Kimi K2.5 技术报告发布:模型架构与性能评估
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Trinity Large:开源4000亿稀疏MoE模型
01-29 MoE 稀疏模型 Trinity
[自动] [ARXIV]
6minschool 🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器!
01-28 Transformer Post-LayerNorm Keel