目录
模型架构
条目:51
2026年三月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 3min | newspaper
MicroGPT:基于Transformer架构的轻量级代码生成模型 03-01
MicroGPT
代码生成
Transformer |
[自动]
[HACKER_NEWS] | 5min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
算法实现
算术推理 |
[自动]
[HACKER_NEWS] | 5min | newspaper
构建极简Transformer实现十位数加法运算 03-01
Transformer
LLM
算法实现 |
[自动]
[HACKER_NEWS] | 4min | newspaper
构建极简Transformer模型实现十位数加法运算 03-01
Transformer
算法推理
算术运算 |
2026年二月
37 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
构建极简Transformer模型实现十位数加法运算 02-28
Transformer
算法实现
算术运算 |
[自动]
[HACKER_NEWS] | 4min | newspaper
最小Transformer模型实现两位数加法运算 02-28
Transformer
算法
算术 |
[自动]
[HACKER_NEWS] | 4min | newspaper
能计算两位十进制数相加的最小 Transformer 模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[HACKER_NEWS] | 4min | newspaper
逆向工程挑战:解析神经网络架构与参数 02-27
逆向工程
神经网络
模型安全 |
[自动]
[HACKER_NEWS] | 4min | newspaper
逆向工程挑战:解析该神经网络架构 02-27
神经网络
逆向工程
模型架构 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型架构解析 02-27
Transformer
MoE
混合专家 |
[自动]
[ARXIV] | 2min | school
缓解可读性代价:基于解耦证明者-验证者博弈的方法 02-27
LLM
可解释性
模型评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Transformer架构中的混合专家模型原理与应用 02-27
Transformer
MoE
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer 架构中的混合专家模型原理与优势 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型:架构原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
Transformer
MoE
混合专家模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
首个完全通用的计算机动作模型 02-26
通用模型
计算机控制
Agent |
[自动]
[HACKER_NEWS] | 4min | newspaper
首个完全通用的计算机动作模型 02-26
计算机动作模型
通用模型
LLM |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型非线性变换解析:从MLP到MoE的架构演进 02-26
非线性变换
MLP
MoE |
[自动]
[ARXIV] | 4min | school
Test-Time训练结合KV绑定等价于线性注意力 02-26
TTT
线性注意力
KV绑定 |
[自动]
[ARXIV] | 4min | school
KV绑定测试时训练等价于线性注意力 02-25
TTT
线性注意力
KV缓存 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Mercury 2:基于扩散模型的最快推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的最快推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[ARXIV] | 4min | school
强化快速权重与下一序列预测 02-19
REFINE
快速权重
强化学习 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Step 3.5 Flash:快速思考与可靠执行 02-19
Step 3.5 Flash
推理模型
快速响应 |
[自动]
[ARXIV] | 3min | school
Avey-B:基于视觉基础模型的通用具身智能代理 02-19
Avey-B
NLP
Transformer |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Jeff Dean:重写谷歌搜索栈与TPU共稀疏万亿参数模型 02-18
Jeff Dean
TPU
稀疏模型 |
[自动]
[JUEJIN] | 2min | sticky_note_2
Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解 02-17
Qwen3.5
MoE
多模态 |
[自动]
[HACKER_NEWS] | 7min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[ARXIV] | 3min | school
Pensieve范式:有状态语言模型自主管理上下文 02-13
StateLM
有状态模型
上下文管理 |
[自动]
[HACKER_NEWS] | 7min | newspaper
GLM-5:面向复杂系统工程与长周期智能体任务 02-12
GLM-5
智能体
系统工程 |
[自动]
[HACKER_NEWS] | 5min | newspaper
GLM-5:面向复杂系统工程与长周期智能体任务 02-12
GLM-5
智能体
系统工程 |
[自动]
[HACKER_NEWS] | 6min | newspaper
GLM-5:面向复杂系统工程与长周期智能体任务 02-12
GLM-5
智能体
系统工程 |
[自动]
[HACKER_NEWS] | 2min | newspaper
GLM-5:面向复杂系统工程与长周期智能体任务 02-12
GLM-5
智能体
系统工程 |
[自动]
[ARXIV] | 4min | school
伪可逆神经网络:通过伪可逆性提升模型可逆性 02-07
神经网络
伪可逆
SPNN |
[自动]
[HACKER_NEWS] | 3min | newspaper
超网络:用于处理层级数据的神经网络架构 02-06
超网络
层级数据
神经网络架构 |
[自动]
[ARXIV] | 3min | school
数据中的阈下效应:一种基于对数线性性的通用机制 02-05
LLM
数据质量
Logit-Linear-Selection |
2026年一月
10 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:模型架构与性能评估 01-31
Kimi K2.5
技术报告
模型架构 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Kimi K2.5 技术报告发布:模型架构与训练细节 01-31
Kimi K2.5
Moonshot AI
技术报告 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:架构与性能细节 01-31
Kimi
K2.5
Moonshot |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:模型架构与性能评估 01-31
Kimi K2.5
Moonshot AI
技术报告 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解 01-31
Kimi K2.5
技术报告
长上下文 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi k2.5 技术报告发布 01-31
Kimi
K2.5
技术报告 |
[自动]
[HACKER_NEWS] | 7min | newspaper
月之暗面发布 Kimi k2.5 技术报告 01-31
月之暗面
Kimi
K2.5 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Kimi K2.5 技术报告发布:模型架构与性能评估 01-31
Kimi K2.5
Moonshot AI
技术报告 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Trinity Large:开源4000亿稀疏MoE模型 01-29
MoE
稀疏模型
Trinity |
[自动]
[ARXIV] | 6min | school
🔥Post-LayerNorm强势回归!稳定、高效、深度训练的新神器! 01-28
Transformer
Post-LayerNorm
Keel |
无匹配条目