推理优化

条目：121

2026年五月 4 篇

类型	阅读	条目
[自动] [JUEJIN]	2min	sticky_note_2 Mac大模型本地部署：Ollama与MLX混合架构指南 05-28 本地部署 Ollama MLX
[自动] [ARXIV]	1min	school 语言模型自我改进：代理发现与测试时扩展 05-11 LLM Agent Test-time scaling
[自动] [HACKER_NEWS]	1min	newspaper Gemma 4推理加速：多token预测drafters技术 05-05 Gemma 4 推理加速多token预测
[自动] [HACKER_NEWS]	1min	newspaper OpenAI如何实现大规模低延迟语音AI 05-04 OpenAI 语音AI 低延迟

2026年四月 2 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic Amazon SageMaker AI生成式AI推理推荐功能优化 04-22 SageMaker 生成式AI 推理优化
[自动] [BLOGS_PODCASTS]	1min	mic Claude Opus 4.7发布相比4.6全面提升 04-17 Claude Opus SOTA模型 Anthropic

2026年三月 48 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Bedrock环境部署Nemotron 3 Super模型指南 03-20 Nemotron 3 Amazon Bedrock AWS
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI发布GPT-4o mini与nano：更小更快，优化编码与多模态推理 03-18 OpenAI GPT-4o 模型发布
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron 3 Nano 4B：面向高效本地 AI 的紧凑混合模型 03-18 Nemotron 本地部署混合模型
[自动] [BLOGS_PODCASTS]	3min	mic Introducing Disaggregated Inference on AWS powered by l 03-18 AWS llm-d 解耦推理
[自动] [HACKER_NEWS]	1min	newspaper Mistral AI 发布 Forge：微调与推理优化工具 03-18 Mistral AI Forge 模型微调
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI发布GPT-4o mini与nano：更小更快，优化代码与多模态 03-17 OpenAI GPT-4o 模型发布
[自动] [BLOGS_PODCASTS]	3min	mic AWS 解耦式推理技术解析：基于 SageMaker HyperPod 的性能优化实践 03-17 AWS SageMaker 推理优化
[自动] [HACKER_NEWS]	1min	newspaper OpenAI发布GPT‑5.4 Mini与Nano模型 03-17 OpenAI GPT-5.4 Mini模型
[自动] [BLOGS_PODCASTS]	3min	mic AWS 基于 LLM-d 的解耦推理技术及 SageMaker HyperPod EKS 实践 03-17 AWS LLM 推理优化
[自动] [BLOGS_PODCASTS]	4min	mic AWS 基于llm-d推出分离式推理：解耦服务与智能调度 03-17 AWS LLM 推理优化
[自动] [BLOGS_PODCASTS]	1min	mic AWS 解耦式推理技术解析：解耦服务、智能调度与专家并行 03-17 AWS LLM 推理优化
[自动] [ARXIV]	1min	school 合成监督学习优化视频问答关键帧选择 03-17 VideoQA 关键帧选择多模态模型
[自动] [BLOGS_PODCASTS]	3min	mic AWS 推出基于 llm-d 的分离式推理技术 03-17 AWS llm-d 推理优化
[自动] [BLOGS_PODCASTS]	3min	mic Improve operational visibility for inference workloads 03-16 AWS Amazon Bedrock CloudWatch
[自动] [BLOGS_PODCASTS]	3min	mic AWS 推出基于 LLM-d 的分离式推理技术及 SageMaker HyperPod 实践 03-16 AWS LLM 推理优化
[自动] [BLOGS_PODCASTS]	3min	mic AWS 解耦式推理技术解析：服务解耦、智能调度与专家并行 03-16 AWS 推理优化解耦式服务
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Bedrock 新增 CloudWatch 指标：TTFT 与配额监控 03-16 Amazon Bedrock CloudWatch LLM
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Bedrock 新增 CloudWatch 指标，支持监控 TTFT 和配额消耗 03-16 Amazon Bedrock CloudWatch LLM
[自动] [BLOGS_PODCASTS]	4min	mic Amazon Bedrock新增CloudWatch指标：监控TTFT与配额消耗 03-16 Amazon Bedrock CloudWatch TTFT
[自动] [HACKER_NEWS]	1min	newspaper LLM Architecture Gallery 03-16 LLM 架构设计模型部署
[自动] [HACKER_NEWS]	4min	newspaper LLM Architecture Gallery 03-16 LLM 架构设计模型部署
[自动] [ARXIV]	4min	school BiGain：面向生成与分类任务的统一Token压缩方法 03-14 BiGain Token压缩扩散模型
[自动] [BLOGS_PODCASTS]	2min	mic Improve operational visibility for inference workloads 03-14 Amazon Bedrock CloudWatch LLM
[自动] [HACKER_NEWS]	1min	newspaper 在本地设备运行 AI 模型的硬件与软件指南 03-14 本地部署边缘计算硬件指南
[自动] [BLOGS_PODCASTS]	4min	mic Amazon Bedrock 新增 CloudWatch 指标：TTFT 与配额监控 03-14 Amazon Bedrock CloudWatch LLM
[自动] [HACKER_NEWS]	1min	newspaper Context Gateway：在LLM前压缩Agent上下文 03-14 LLM Agent 上下文压缩
[自动] [ARXIV]	4min	school BiGain：面向生成与分类任务的统一Token压缩 03-13 BiGain Token压缩扩散模型
[自动] [HACKER_NEWS]	1min	newspaper Context Gateway：压缩Agent上下文以降低LLM调用成本 03-13 LLM Agent 上下文压缩
[自动] [BLOGS_PODCASTS]	4min	mic Amazon Bedrock新增CloudWatch指标：TTFT与配额消耗监控 03-13 Amazon Bedrock CloudWatch TTFT
[自动] [HACKER_NEWS]	1min	newspaper 本地运行AI的可行性评估与硬件配置指南 03-13 本地部署硬件配置 LLM
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Bedrock 新增 CloudWatch 指标：TTFT 与估算配额使用率 03-12 Amazon Bedrock CloudWatch TTFT
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA AI-Q登顶DeepResearch Bench I与II榜单 03-12 NVIDIA AI-Q DeepResearch
[自动] [HACKER_NEWS]	1min	newspaper BitNet：面向本地CPU的1000亿参数1比特模型 03-12 BitNet 1-bit 量化
[自动] [HACKER_NEWS]	1min	newspaper BitNet: 100B Param 1-Bit model for local CPUs 03-12 BitNet 1-bit 量化
[自动] [HACKER_NEWS]	1min	newspaper BitNet：支持本地CPU运行的1000亿参数1比特模型 03-11 BitNet 1-bit 量化
[自动] [HACKER_NEWS]	1min	newspaper 微软BitNet：可在本地CPU运行的1000亿参数1比特模型 03-11 BitNet 1-bit 量化
[自动] [HACKER_NEWS]	1min	newspaper 超越vLLM性能的自研推理栈技术解析 03-11 推理优化 vLLM 性能调优
[自动] [BLOGS_PODCASTS]	2min	mic 英伟达工程师对话：行星级Agent推理与光速计算 03-11 NVIDIA GTC Agent
[自动] [BLOGS_PODCASTS]	3min	mic 英伟达工程师探讨行星级智能体推理与光速计算 03-10 NVIDIA GTC AI Agent
[自动] [BLOGS_PODCASTS]	2min	mic 从16个开源强化学习库中总结的Token流优化经验 03-10 强化学习 RLHF Token流
[自动] [BLOGS_PODCASTS]	2min	mic 从16个开源强化学习库中总结的Token流优化经验 03-10 强化学习 RL Token流
[自动] [ARXIV]	4min	school SERQ：基于显著性感知的低秩误差重构LLM量化方法 03-10 LLM量化 SERQ PTQ
[自动] [HACKER_NEWS]	5min	newspaper 如何在本地运行 Qwen 3.5 大模型 03-08 Qwen 3.5 本地部署 LLM
[自动] [BLOGS_PODCASTS]	3min	mic 在SageMaker上部署SGLang并集成Strands智能体自定义模型 03-06 SageMaker SGLang Llama 3.1
[自动] [ARXIV]	4min	school 多头低秩注意力机制 03-04 MLRA KV Cache 注意力机制
[自动] [HACKER_NEWS]	1min	newspaper GPT‑5.3 Instant 模型发布 03-03 OpenAI GPT-5.3 Instant
[自动] [ARXIV]	4min	school KVSlimmer：非对称KV合并的理论洞察与优化 03-03 LLM KV Cache 推理优化
[自动] [ARXIV]	3min	school LLM是否受益于自身生成的文本 03-02 LLM 多轮对话上下文学习

2026年二月 56 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	1min	newspaper Unsloth Dynamic 2.0 发布：支持 GGUF 格式 02-28 Unsloth GGUF LLM
[自动] [BLOGS_PODCASTS]	3min	mic AWS LMI 推理容器更新：提升性能与简化部署 02-28 AWS LMI LLM
[自动] [HACKER_NEWS]	1min	newspaper Unsloth Dynamic 2.0 推出 GGUF 格式模型 02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]	1min	newspaper Unsloth Dynamic 2.0 GGUFs 发布 02-28 Unsloth GGUF llama.cpp
[自动] [HACKER_NEWS]	1min	newspaper Unsloth发布Dynamic 2.0 GGUF模型 02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]	1min	newspaper Unsloth推出Dynamic 2.0 GGUF模型 02-28 Unsloth GGUF 模型量化
[自动] [BLOGS_PODCASTS]	3min	mic AWS LMI 容器更新：扩展模型支持并提升推理性能 02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升托管LLM性能并简化部署 02-27 AWS LMI LLM
[自动] [ARXIV]	3min	school DySCO：面向长上下文大模型的动态注意力缩放解码方法 02-27 DySCO 长上下文解码算法
[自动] [ARXIV]	3min	school DySCO：面向长上下文大模型的动态注意力缩放解码 02-26 DySCO 长上下文注意力机制
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升LLM托管性能与部署效率 02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic 在 SageMaker AI 与 Bedrock 上高效部署多 LoRA 模型 02-26 vLLM LoRA SageMaker
[自动] [ARXIV]	5min	school 为何Pass@k优化会降低Pass@1：大模型后训练中的提示干扰 02-25 LLM 后训练代码生成
[自动] [HACKER_NEWS]	1min	newspaper Mercury 2：基于扩散模型的最快推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练与推理性价比优化 02-24 SageMaker 弹性训练推理优化
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-24 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年亚马逊SageMaker AI：增强可观测性与模型定制托管功能 02-24 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：弹性训练计划与推理性价比优化 02-24 SageMaker AWS 弹性训练
[自动] [ARXIV]	4min	school SPQ：面向大语言模型压缩的集成技术 02-24 LLM 模型压缩 SPQ
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练与推理优化 02-24 SageMaker AWS 模型训练
[自动] [ARXIV]	4min	school SPQ：大语言模型压缩的集成技术 02-23 模型压缩 LLM 量化
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：灵活训练计划与推理性价比提升 02-23 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025：弹性训练与推理优化 02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI提升可观测性并优化模型定制与托管 02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比提升 02-23 SageMaker 弹性训练推理优化
[自动] [BLOGS_PODCASTS]	3min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比优化 02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-23 Amazon SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：灵活训练计划与推理性价比优化 02-22 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：可观测性、模型定制与托管增强 02-22 SageMaker AWS LLM
[自动] [HACKER_NEWS]	2min	newspaper 单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B 02-22 Llama 3.1 LLM 推理优化
[自动] [HACKER_NEWS]	2min	newspaper Llama 3.1 70B 单卡 RTX 3090 部署：利用 NVMe 直连 GPU 绕过 CPU 02-22 Llama 3.1 RTX 3090 NVMe
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入Hugging Face推动本地AI发展 02-21 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-21 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	3min	mic Amazon SageMaker AI 2025回顾：可观测性与模型定制托管增强 02-21 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	3min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比提升 02-21 SageMaker AWS 弹性训练
[自动] [ARXIV]	3min	school 面向扩散语言模型的Sink感知剪枝方法 02-20 扩散模型语言模型模型剪枝
[自动] [BLOGS_PODCASTS]	3min	mic 使用Unsloth和Hugging Face Jobs免费训练AI模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比优化 02-20 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年Amazon SageMaker AI增强可观测性与模型定制托管功能 02-20 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic GGML与llama.cpp加入HF推动本地AI长期发展 02-20 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]	1min	newspaper 基于注意力匹配机制实现快速KV压缩 02-20 KV压缩注意力机制推理优化
[自动] [HACKER_NEWS]	1min	newspaper Step 3.5 Flash 开源基础模型：支持高速深度推理 02-19 Step 3.5 Flash 开源模型深度推理
[自动] [ARXIV]	5min	school 异步验证语义缓存优化分层大模型架构 02-17 语义缓存 LLM架构异步验证
[自动] [HACKER_NEWS]	7min	newspaper LCM：无损上下文管理技术论文 02-16 LCM 上下文管理无损
[自动] [HACKER_NEWS]	5min	newspaper LLM Agent 成本呈二次方增长：算力开销分析 02-16 LLM Agent 成本分析
[自动] [ARXIV]	4min	school 扩展验证比扩展策略学习更有效实现视觉-语言-动作对齐 02-14 VLA 具身智能机器人
[自动] [ARXIV]	5min	school Agentic WebAgents 的测试时缩放方法 02-13 WebAgents 测试时缩放 CATTS
[自动] [BLOGS_PODCASTS]	4min	mic NVIDIA Nemotron 3 Nano 30B 现已登陆 Amazon SageMaker JumpSt 02-12 NVIDIA Nemotron AWS
[自动] [BLOGS_PODCASTS]	4min	mic NVIDIA Nemotron 3 Nano 30B 现已在 Amazon SageMaker JumpSta 02-12 NVIDIA AWS SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic NVIDIA Nemotron 3 Nano 30B 模型现已在 Amazon SageMaker JumpS 02-12 NVIDIA Nemotron AWS
[自动] [HACKER_NEWS]	2min	newspaper Pure C, CPU-only inference with Mistral Voxtral Realtim 02-10 C语言语音识别 Mistral
[自动] [HACKER_NEWS]	5min	newspaper 纯C语言无依赖实现Mistral Voxtral 4B语音转文本推理 02-10 C语言 Mistral Voxtral
[自动] [ARXIV]	3min	school 面向运行时智能体记忆的查询感知预算分层路由 02-06 Agent Memory RAG
[自动] [HACKER_NEWS]	6min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [ARXIV]	3min	school Parallel-Probe：通过2D探测实现高效并行思维 02-04 LLM 并行推理思维链

2026年一月 11 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文建模 01-31 线性注意力长上下文混合架构
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：模型架构与训练细节 01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：架构与性能细节 01-31 Kimi K2.5 Moonshot
[自动] [ARXIV]	3min	school 发现模型仓库中被忽视的高质量模型 01-30 模型评估 Llama-3.1 微调
[自动] [ARXIV]	3min	school 面向大语言模型的时间引导机制 01-30 LLM 对比解码时间引导
[自动] [HACKER_NEWS]	5min	newspaper Trinity Large：开源4000亿参数稀疏MoE模型 01-29 MoE 稀疏模型 Trinity
[自动] [HACKER_NEWS]	5min	newspaper Trinity Large：开源4000亿稀疏MoE模型 01-29 MoE 稀疏模型 Trinity
[自动] [BLOGS_PODCASTS]	3min	mic 中国开源AI生态：超越DeepSeek的架构突围！🏗️🔥 01-28 DeepSeek MoE 架构设计
[自动] [ARXIV]	5min	school 🚀RL新突破！复用FLOPs，硬难题上通过离线前缀扩展 01-27 PrefixRL 强化学习 LLM
[自动] [BLOGS_PODCASTS]	4min	mic 🇨🇳中国开源AI生态：深求之外，架构如何突围？🚀 01-27 DeepSeek 架构设计 MoE
[自动] [BLOGS_PODCASTS]	4min	mic 揭秘Agentic RL训练！GPT-OSS实战回顾，核心干货🔥 01-27 Agentic RL 强化学习 GPT-OSS