terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型架构

条目:82
2026年三月 35 篇
类型阅读条目
[自动] [ARXIV]
4minschool Mixture-of-Depths 动态分配计算资源的注意力机制
03-18 MoDA 注意力机制 深度学习
[自动] [ARXIV]
4minschool Mixture-of-Depths 动态分配计算资源的注意力机制
03-17 MoDA 注意力机制 模型架构
[自动] [JUEJIN]
2minsticky_note_2 MiniMax M2.5:108天极速迭代,MoE与Agent原生架构重塑全球AI格局
03-17 MiniMax M2.5 MoE
[自动] [HACKER_NEWS]
1minnewspaper LLM 架构画廊:主流大语言模型结构概览
03-16 LLM Transformer 模型架构
[自动] [HACKER_NEWS]
1minnewspaper LLM 架构画廊:主流大语言模型结构解析
03-16 LLM 模型架构 Transformer
[自动] [HACKER_NEWS]
1minnewspaper 大语言模型架构图集
03-16 LLM 架构图 模型架构
[自动] [HACKER_NEWS]
1minnewspaper LLM 架构画廊:主流大模型架构概览与设计对比
03-15 LLM Transformer 模型架构
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法优化
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法优化
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法创新
[自动] [HACKER_NEWS]
1minnewspaper 在Transformer内部执行程序以实现指数级推理加速
03-13 Transformer 推理加速 算法创新
[自动] [BLOGS_PODCASTS]
2minmic AI自改进研究新进展:递归自我优化的初步迹象
03-11 AGI 自我改进 递归优化
[自动] [BLOGS_PODCASTS]
2minmic LeRobot v0.5.0:扩展数据集、架构与策略维度
03-09 LeRobot 机器人学习 Hugging Face
[自动] [ARXIV]
3minschool 大规模激活与注意力槽的机制解析
03-09 Transformer 注意力机制 Pre-norm
[自动] [ARXIV]
3minschool 大模型激活与注意力下沉机制解析
03-08 Transformer 注意力机制 Pre-Norm
[自动] [ARXIV]
4minschool 大模型激活机制研究:尖峰、稀疏性与注意力汇
03-07 Transformer 注意力机制 激活异常
[自动] [ARXIV]
3minschool 大模型激活与注意力下沉机制解析
03-06 Transformer 注意力机制 Pre-norm
[自动] [BLOGS_PODCASTS]
2minmic 推出模块化扩散模型:可组合的扩散流水线构建模块
03-06 扩散模型 模块化 可组合
[自动] [HACKER_NEWS]
1minnewspaper GLiNER2:基于统一Schema的信息抽取模型
03-06 GLiNER2 信息抽取 NER
[自动] [BLOGS_PODCASTS]
3minmic 推出 Modular Diffusers:扩散模型管线的可组合构建模块
03-05 Diffusers 扩散模型 Modular
[自动] [BLOGS_PODCASTS]
2minmic 推出 Modular Diffusers:扩散模型管道的可组合构建块
03-05 Diffusers 扩散模型 模块化
[自动] [JUEJIN]
1minsticky_note_2 从ChatGPT到OpenClaw:梳理模型、工程与框架的AI进化脉络
03-02 ChatGPT OpenClaw AI进化
[自动] [HACKER_NEWS]
1minnewspaper XML标签为何是Claude模型架构的核心基础
03-02 Claude XML标签 模型架构
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT 交互式原理解析
03-02 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]
1minnewspaper 为什么 XML 标签对 Claude 至关重要
03-02 Claude XML 提示词工程
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT:基于微型架构的轻量级大语言模型
03-02 MicroGPT 轻量级模型 LLM
[自动] [HACKER_NEWS]
4minnewspaper XML标签为何是Claude模型能力的关键基础
03-01 Claude XML标签 提示词工程
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT 原理交互式解析
03-01 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]
5minnewspaper MicroGPT 交互式原理解析
03-01 MicroGPT LLM Transformer
[自动] [HACKER_NEWS]
1minnewspaper 为什么 XML 标签对 Claude 模型如此关键
03-01 Claude XML 标签 Prompt
[自动] [HACKER_NEWS]
1minnewspaper 为何XML标签对Claude模型如此关键
03-01 Claude XML标签 提示词工程
[自动] [HACKER_NEWS]
1minnewspaper MicroGPT:基于微型架构的轻量级大语言模型
03-01 MicroGPT 轻量级模型 LLM
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法实现 算术推理
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer实现十位数加法运算
03-01 Transformer LLM 算法实现
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
03-01 Transformer 算法推理 算术运算
2026年二月 37 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 构建极简Transformer模型实现十位数加法运算
02-28 Transformer 算法实现 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 最小Transformer模型实现两位数加法运算
02-28 Transformer 算法 算术
[自动] [HACKER_NEWS]
1minnewspaper 能计算两位十进制数相加的最小 Transformer 模型
02-28 Transformer 算法推理 算术运算
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:解析神经网络架构与参数
02-27 逆向工程 神经网络 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:解析该神经网络架构
02-27 神经网络 逆向工程 模型架构
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型架构解析
02-27 Transformer MoE 混合专家
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-27 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer 架构中的混合专家模型原理与优势
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型:架构原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 Transformer MoE 混合专家模型
[自动] [HACKER_NEWS]
1minnewspaper 首个完全通用的计算机动作模型
02-26 通用模型 计算机控制 Agent
[自动] [HACKER_NEWS]
1minnewspaper 首个完全通用的计算机动作模型
02-26 计算机动作模型 通用模型 LLM
[自动] [JUEJIN]
2minsticky_note_2 大模型非线性变换解析:从MLP到MoE的架构演进
02-26 非线性变换 MLP MoE
[自动] [ARXIV]
4minschool Test-Time训练结合KV绑定等价于线性注意力
02-26 TTT 线性注意力 KV绑定
[自动] [ARXIV]
4minschool KV绑定测试时训练等价于线性注意力
02-25 TTT 线性注意力 KV缓存
[自动] [HACKER_NEWS]
1minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [HACKER_NEWS]
1minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [HACKER_NEWS]
1minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [HACKER_NEWS]
1minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [ARXIV]
4minschool 强化快速权重与下一序列预测
02-19 REFINE 快速权重 强化学习
[自动] [HACKER_NEWS]
1minnewspaper Step 3.5 Flash:快速思考与可靠执行
02-19 Step 3.5 Flash 推理模型 快速响应
[自动] [ARXIV]
3minschool Avey-B:基于视觉基础模型的通用具身智能代理
02-19 Avey-B NLP Transformer
[自动] [BLOGS_PODCASTS]
2minmic Jeff Dean:重写谷歌搜索栈与TPU共稀疏万亿参数模型
02-18 Jeff Dean TPU 稀疏模型
[自动] [JUEJIN]
2minsticky_note_2 Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解
02-17 Qwen3.5 MoE 多模态
[自动] [HACKER_NEWS]
7minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [ARXIV]
3minschool Pensieve范式:有状态语言模型自主管理上下文
02-13 StateLM 有状态模型 上下文管理
[自动] [HACKER_NEWS]
7minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [HACKER_NEWS]
5minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [HACKER_NEWS]
6minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [HACKER_NEWS]
2minnewspaper GLM-5:面向复杂系统工程与长周期智能体任务
02-12 GLM-5 智能体 系统工程
[自动] [ARXIV]
4minschool 伪可逆神经网络:通过伪可逆性提升模型可逆性
02-07 神经网络 伪可逆 SPNN
[自动] [HACKER_NEWS]
3minnewspaper 超网络:用于处理层级数据的神经网络架构
02-06 超网络 层级数据 神经网络架构
[自动] [ARXIV]
3minschool 数据中的阈下效应:一种基于对数线性性的通用机制
02-05 LLM 数据质量 Logit-Linear-Selection
2026年一月 10 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:模型架构与性能评估
01-31 Kimi K2.5 技术报告 模型架构
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:模型架构与训练细节
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:架构与性能细节
01-31 Kimi K2.5 Moonshot
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:模型架构与性能评估
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解
01-31 Kimi K2.5 技术报告 长上下文
[自动] [HACKER_NEWS]
4minnewspaper Kimi k2.5 技术报告发布
01-31 Kimi K2.5 技术报告
[自动] [HACKER_NEWS]
7minnewspaper 月之暗面发布 Kimi k2.5 技术报告
01-31 月之暗面 Kimi K2.5
[自动] [HACKER_NEWS]
6minnewspaper Kimi K2.5 技术报告发布:模型架构与性能评估
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Trinity Large:开源4000亿稀疏MoE模型
01-29 MoE 稀疏模型 Trinity
[自动] [ARXIV]
6minschool 🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器!
01-28 Transformer Post-LayerNorm Keel