目录
模型优化
条目:53
2026年二月
48 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 5min | newspaper
能计算两个10位数加法的最小Transformer模型 02-28
Transformer
算法推理
算术运算 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-27
Nano Banana 2
图像生成
图像编辑 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer 架构中的混合专家模型原理与优势 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer中的混合专家模型:架构原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
MoE
Transformer
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Transformer架构中的混合专家模型原理与应用 02-26
Transformer
MoE
混合专家模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI 资讯:中型模型发布凸显闭环效应 02-26
中型模型
闭环效应
模型发布 |
[自动]
[JUEJIN] | 2min | sticky_note_2
空洞卷积原理:如何解决计算机视觉的精度与视野矛盾 02-26
空洞卷积
计算机视觉
深度学习 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
Diffusion Model |
[自动]
[HACKER_NEWS] | 5min | newspaper
Mercury 2:基于扩散模型的快速推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[ARXIV] | 4min | school
基于Tokenizer的文本语言识别方法研究 02-23
UniLID
语言识别
Tokenizer |
[自动]
[ARXIV] | 4min | school
面向扩散语言模型的感知汇点剪枝方法 02-22
扩散模型
DLM
模型剪枝 |
[自动]
[HACKER_NEWS] | 7min | newspaper
LLM智能体新增Claws层以增强能力 02-22
LLM
智能体
Claws |
[自动]
[HACKER_NEWS] | 6min | newspaper
误差随时间前向传播机制解析 02-22
误差传播
时间序列
神经网络 |
[自动]
[HACKER_NEWS] | 7min | newspaper
LLM智能体新增Claws层以增强功能 02-22
LLM
智能体
Claws |
[自动]
[HACKER_NEWS] | 5min | newspaper
迈向通用AI:17k tokens/sec的推理性能路径 02-20
推理性能
Token生成
通用AI |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-20
推理加速
高性能计算
Token吞吐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 键值对压缩 02-20
KV压缩
注意力机制
推理加速 |
[自动]
[HACKER_NEWS] | 6min | newspaper
一致性扩散语言模型提速14倍且无损质量 02-20
扩散模型
一致性模型
语言模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM 模型应关注的数据处理与优化策略 02-18
LLM
数据处理
模型优化 |
[自动]
[ARXIV] | 4min | school
MonarchRT:面向实时视频生成的高效注意力机制 02-15
视频生成
DiT
注意力机制 |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种加速大模型推理的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[ARXIV] | 4min | school
基于策略上下文蒸馏的大语言模型优化方法 02-14
LLM
蒸馏
上下文学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Codex与Claude支持定制化内核 02-13
Codex
Claude
定制化内核 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Codex 与 Claude 支持构建自定义内核 02-13
Codex
Claude
自定义内核 |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅改用Harness框架即可提升15个大模型编程能力 02-13
LLM
代码生成
Harness |
[自动]
[ARXIV] | 4min | school
Meta-Sel:基于监督元学习的高效上下文学习示例选择方法 02-13
ICL
元学习
示例选择 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
利用 Hugging Face 与 SageMaker 扩展企业级 LLM 微调 02-10
LLM
微调
Hugging Face |
[自动]
[HACKER_NEWS] | 3min | newspaper
停止生成开始思考:大模型推理范式转变 02-09
推理范式
思维链
CoT |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-05
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-05
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-05
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-04
文本生成图像
模型训练
消融实验 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-04
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文生图模型训练设计:消融实验的经验总结 02-04
文生图
模型训练
消融实验 |
[自动]
[HACKER_NEWS] | 7min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-04
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-03
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-03
文本生成图像
模型训练
消融实验 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文本生成图像模型训练设计:消融实验的经验总结 02-03
文本生成图像
模型训练
消融实验 |
[自动]
[ARXIV] | 4min | school
神经网络转逻辑流以优化边缘计算性能 02-01
边缘计算
神经网络
模型优化 |
2026年一月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
神经网络转逻辑流以优化边缘计算性能 01-31
边缘计算
神经网络
逻辑流 |
[自动]
[ARXIV] | 4min | school
神经网络转逻辑流以优化边缘计算 01-30
边缘计算
神经网络
模型优化 |
[自动]
[ARXIV] | 4min | school
后训练公平性控制:推荐系统动态公平性单训练框架 01-30
推荐系统
公平性
Cofair |
[自动]
[HACKER_NEWS] | 5min | newspaper
压缩智能体:Agent Skills 技术解析 01-30
Agent
LLM
技术解析 |
[自动]
[ARXIV] | 4min | school
无需真值!🔥颠覆性校准技术来了!🤯 01-28
模型校准
无监督学习
LLM |
无匹配条目