terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型优化

条目:53
2026年二月 48 篇
类型阅读条目
[自动] [HACKER_NEWS]
5minnewspaper 能计算两个10位数加法的最小Transformer模型
02-28 Transformer 算法推理 算术运算
[自动] [BLOGS_PODCASTS]
2minmic 使用 Nano Banana 2 构建图像生成与编辑应用
02-27 Nano Banana 2 图像生成 图像编辑
[自动] [BLOGS_PODCASTS]
2minmic Transformer 架构中的混合专家模型原理与优势
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家
[自动] [BLOGS_PODCASTS]
2minmic Transformer中的混合专家模型:架构原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 MoE Transformer 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic Transformer架构中的混合专家模型原理与应用
02-26 Transformer MoE 混合专家模型
[自动] [BLOGS_PODCASTS]
2minmic AI 资讯:中型模型发布凸显闭环效应
02-26 中型模型 闭环效应 模型发布
[自动] [JUEJIN]
2minsticky_note_2 空洞卷积原理:如何解决计算机视觉的精度与视野矛盾
02-26 空洞卷积 计算机视觉 深度学习
[自动] [HACKER_NEWS]
5minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 Diffusion Model
[自动] [HACKER_NEWS]
5minnewspaper Mercury 2:基于扩散模型的快速推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [ARXIV]
4minschool 基于Tokenizer的文本语言识别方法研究
02-23 UniLID 语言识别 Tokenizer
[自动] [ARXIV]
4minschool 面向扩散语言模型的感知汇点剪枝方法
02-22 扩散模型 DLM 模型剪枝
[自动] [HACKER_NEWS]
7minnewspaper LLM智能体新增Claws层以增强能力
02-22 LLM 智能体 Claws
[自动] [HACKER_NEWS]
6minnewspaper 误差随时间前向传播机制解析
02-22 误差传播 时间序列 神经网络
[自动] [HACKER_NEWS]
7minnewspaper LLM智能体新增Claws层以增强功能
02-22 LLM 智能体 Claws
[自动] [HACKER_NEWS]
5minnewspaper 迈向通用AI:17k tokens/sec的推理性能路径
02-20 推理性能 Token生成 通用AI
[自动] [HACKER_NEWS]
4minnewspaper 一致性扩散语言模型提速14倍且无损质量
02-20 扩散模型 一致性模型 语言模型
[自动] [HACKER_NEWS]
4minnewspaper 一致性扩散语言模型提速14倍且无损质量
02-20 扩散模型 一致性模型 语言模型
[自动] [HACKER_NEWS]
4minnewspaper 通往普及AI之路:实现每秒1.7万tokens推理
02-20 推理加速 高性能计算 Token吞吐
[自动] [HACKER_NEWS]
4minnewspaper 一致性扩散语言模型提速14倍且无损质量
02-20 扩散模型 一致性模型 语言模型
[自动] [HACKER_NEWS]
5minnewspaper 利用注意力匹配加速 KV 键值对压缩
02-20 KV压缩 注意力机制 推理加速
[自动] [HACKER_NEWS]
6minnewspaper 一致性扩散语言模型提速14倍且无损质量
02-20 扩散模型 一致性模型 语言模型
[自动] [HACKER_NEWS]
4minnewspaper LLM 模型应关注的数据处理与优化策略
02-18 LLM 数据处理 模型优化
[自动] [ARXIV]
4minschool MonarchRT:面向实时视频生成的高效注意力机制
02-15 视频生成 DiT 注意力机制
[自动] [HACKER_NEWS]
5minnewspaper 两种加速大模型推理的技术方法
02-15 LLM 推理加速 KV Cache
[自动] [ARXIV]
4minschool 基于策略上下文蒸馏的大语言模型优化方法
02-14 LLM 蒸馏 上下文学习
[自动] [BLOGS_PODCASTS]
2minmic Codex与Claude支持定制化内核
02-13 Codex Claude 定制化内核
[自动] [BLOGS_PODCASTS]
2minmic Codex 与 Claude 支持构建自定义内核
02-13 Codex Claude 自定义内核
[自动] [HACKER_NEWS]
6minnewspaper 仅改用Harness框架即可提升15个大模型编程能力
02-13 LLM 代码生成 Harness
[自动] [ARXIV]
4minschool Meta-Sel:基于监督元学习的高效上下文学习示例选择方法
02-13 ICL 元学习 示例选择
[自动] [BLOGS_PODCASTS]
4minmic 利用 Hugging Face 与 SageMaker 扩展企业级 LLM 微调
02-10 LLM 微调 Hugging Face
[自动] [HACKER_NEWS]
3minnewspaper 停止生成开始思考:大模型推理范式转变
02-09 推理范式 思维链 CoT
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-05 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-05 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-05 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-04 文本生成图像 模型训练 消融实验
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-04 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文生图模型训练设计:消融实验的经验总结
02-04 文生图 模型训练 消融实验
[自动] [HACKER_NEWS]
7minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-04 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-03 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-03 文本生成图像 模型训练 消融实验
[自动] [BLOGS_PODCASTS]
2minmic 文本生成图像模型训练设计:消融实验的经验总结
02-03 文本生成图像 模型训练 消融实验
[自动] [ARXIV]
4minschool 神经网络转逻辑流以优化边缘计算性能
02-01 边缘计算 神经网络 模型优化
2026年一月 5 篇
类型阅读条目
[自动] [ARXIV]
4minschool 神经网络转逻辑流以优化边缘计算性能
01-31 边缘计算 神经网络 逻辑流
[自动] [ARXIV]
4minschool 神经网络转逻辑流以优化边缘计算
01-30 边缘计算 神经网络 模型优化
[自动] [ARXIV]
4minschool 后训练公平性控制:推荐系统动态公平性单训练框架
01-30 推荐系统 公平性 Cofair
[自动] [HACKER_NEWS]
5minnewspaper 压缩智能体:Agent Skills 技术解析
01-30 Agent LLM 技术解析
[自动] [ARXIV]
4minschool 无需真值!🔥颠覆性校准技术来了!🤯
01-28 模型校准 无监督学习 LLM