推理优化

条目：67

2026年二月 56 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	6min	newspaper Unsloth Dynamic 2.0 发布：支持 GGUF 格式 02-28 Unsloth GGUF LLM
[自动] [BLOGS_PODCASTS]	3min	mic AWS LMI 推理容器更新：提升性能与简化部署 02-28 AWS LMI LLM
[自动] [HACKER_NEWS]	6min	newspaper Unsloth Dynamic 2.0 推出 GGUF 格式模型 02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]	5min	newspaper Unsloth Dynamic 2.0 GGUFs 发布 02-28 Unsloth GGUF llama.cpp
[自动] [HACKER_NEWS]	5min	newspaper Unsloth发布Dynamic 2.0 GGUF模型 02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]	5min	newspaper Unsloth推出Dynamic 2.0 GGUF模型 02-28 Unsloth GGUF 模型量化
[自动] [BLOGS_PODCASTS]	3min	mic AWS LMI 容器更新：扩展模型支持并提升推理性能 02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升托管LLM性能并简化部署 02-27 AWS LMI LLM
[自动] [ARXIV]	4min	school DySCO：面向长上下文大模型的动态注意力缩放解码方法 02-27 DySCO 长上下文解码算法
[自动] [ARXIV]	4min	school DySCO：面向长上下文大模型的动态注意力缩放解码 02-26 DySCO 长上下文注意力机制
[自动] [BLOGS_PODCASTS]	5min	mic AWS发布LMI容器更新：提升LLM托管性能与部署效率 02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic 在 SageMaker AI 与 Bedrock 上高效部署多 LoRA 模型 02-26 vLLM LoRA SageMaker
[自动] [ARXIV]	5min	school 为何Pass@k优化会降低Pass@1：大模型后训练中的提示干扰 02-25 LLM 后训练代码生成
[自动] [HACKER_NEWS]	4min	newspaper Mercury 2：基于扩散模型的最快推理大语言模型 02-25 Mercury 2 扩散模型推理加速
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练与推理性价比优化 02-24 SageMaker 弹性训练推理优化
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-24 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年亚马逊SageMaker AI：增强可观测性与模型定制托管功能 02-24 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：弹性训练计划与推理性价比优化 02-24 SageMaker AWS 弹性训练
[自动] [ARXIV]	4min	school SPQ：面向大语言模型压缩的集成技术 02-24 LLM 模型压缩 SPQ
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练与推理优化 02-24 SageMaker AWS 模型训练
[自动] [ARXIV]	6min	school SPQ：大语言模型压缩的集成技术 02-23 模型压缩 LLM 量化
[自动] [BLOGS_PODCASTS]	3min	mic 2025年Amazon SageMaker AI回顾：灵活训练计划与推理性价比提升 02-23 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025：弹性训练与推理优化 02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI提升可观测性并优化模型定制与托管 02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比提升 02-23 SageMaker 弹性训练推理优化
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比优化 02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-23 Amazon SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic Amazon SageMaker AI 2025回顾：灵活训练计划与推理性价比优化 02-22 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年Amazon SageMaker AI回顾：可观测性、模型定制与托管增强 02-22 SageMaker AWS LLM
[自动] [HACKER_NEWS]	6min	newspaper 单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B 02-22 Llama 3.1 LLM 推理优化
[自动] [HACKER_NEWS]	6min	newspaper Llama 3.1 70B 单卡 RTX 3090 部署：利用 NVMe 直连 GPU 绕过 CPU 02-22 Llama 3.1 RTX 3090 NVMe
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入Hugging Face推动本地AI发展 02-21 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic Amazon SageMaker AI 2025回顾：弹性训练计划与推理性价比提升 02-21 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	3min	mic Amazon SageMaker AI 2025回顾：可观测性与模型定制托管增强 02-21 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	3min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比提升 02-21 SageMaker AWS 弹性训练
[自动] [ARXIV]	4min	school 面向扩散语言模型的Sink感知剪枝方法 02-20 扩散模型语言模型模型剪枝
[自动] [BLOGS_PODCASTS]	4min	mic 使用Unsloth和Hugging Face Jobs免费训练AI模型 02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年回顾：SageMaker AI弹性训练计划与推理性价比优化 02-20 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]	4min	mic 2025年Amazon SageMaker AI增强可观测性与模型定制托管功能 02-20 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]	4min	mic GGML与llama.cpp加入HF推动本地AI长期发展 02-20 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]	5min	newspaper 基于注意力匹配机制实现快速KV压缩 02-20 KV压缩注意力机制推理优化
[自动] [HACKER_NEWS]	4min	newspaper Step 3.5 Flash 开源基础模型：支持高速深度推理 02-19 Step 3.5 Flash 开源模型深度推理
[自动] [ARXIV]	5min	school 异步验证语义缓存优化分层大模型架构 02-17 语义缓存 LLM架构异步验证
[自动] [HACKER_NEWS]	7min	newspaper LCM：无损上下文管理技术论文 02-16 LCM 上下文管理无损
[自动] [HACKER_NEWS]	5min	newspaper LLM Agent 成本呈二次方增长：算力开销分析 02-16 LLM Agent 成本分析
[自动] [ARXIV]	4min	school 扩展验证比扩展策略学习更有效实现视觉-语言-动作对齐 02-14 VLA 具身智能机器人
[自动] [ARXIV]	5min	school Agentic WebAgents 的测试时缩放方法 02-13 WebAgents 测试时缩放 CATTS
[自动] [BLOGS_PODCASTS]	4min	mic NVIDIA Nemotron 3 Nano 30B 现已登陆 Amazon SageMaker JumpSt 02-12 NVIDIA Nemotron AWS
[自动] [BLOGS_PODCASTS]	4min	mic NVIDIA Nemotron 3 Nano 30B 现已在 Amazon SageMaker JumpSta 02-12 NVIDIA AWS SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic NVIDIA Nemotron 3 Nano 30B 模型现已在 Amazon SageMaker JumpS 02-12 NVIDIA Nemotron AWS
[自动] [HACKER_NEWS]	2min	newspaper Pure C, CPU-only inference with Mistral Voxtral Realtim 02-10 C语言语音识别 Mistral
[自动] [HACKER_NEWS]	5min	newspaper 纯C语言无依赖实现Mistral Voxtral 4B语音转文本推理 02-10 C语言 Mistral Voxtral
[自动] [ARXIV]	3min	school 面向运行时智能体记忆的查询感知预算分层路由 02-06 Agent Memory RAG
[自动] [HACKER_NEWS]	6min	newspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]	6min	newspaper 基于对称性泰勒近似实现恒定Token成本注意力机制 02-04 注意力机制 Transformer 泰勒近似
[自动] [ARXIV]	4min	school Parallel-Probe：通过2D探测实现高效并行思维 02-04 LLM 并行推理思维链

2026年一月 11 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文建模 01-31 线性注意力长上下文混合架构
[自动] [HACKER_NEWS]	5min	newspaper Kimi K2.5 技术报告发布：模型架构与训练细节 01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：架构与性能细节 01-31 Kimi K2.5 Moonshot
[自动] [ARXIV]	3min	school 发现模型仓库中被忽视的高质量模型 01-30 模型评估 Llama-3.1 微调
[自动] [ARXIV]	3min	school 面向大语言模型的时间引导机制 01-30 LLM 对比解码时间引导
[自动] [HACKER_NEWS]	5min	newspaper Trinity Large：开源4000亿参数稀疏MoE模型 01-29 MoE 稀疏模型 Trinity
[自动] [HACKER_NEWS]	5min	newspaper Trinity Large：开源4000亿稀疏MoE模型 01-29 MoE 稀疏模型 Trinity
[自动] [BLOGS_PODCASTS]	3min	mic 中国开源AI生态：超越DeepSeek的架构突围！🏗️🔥 01-28 DeepSeek MoE 架构设计
[自动] [ARXIV]	5min	school 🚀RL新突破！复用FLOPs，硬难题上通过离线前缀扩展 01-27 PrefixRL 强化学习 LLM
[自动] [BLOGS_PODCASTS]	4min	mic 🇨🇳中国开源AI生态：深求之外，架构如何突围？🚀 01-27 DeepSeek 架构设计 MoE
[自动] [BLOGS_PODCASTS]	4min	mic 揭秘Agentic RL训练！GPT-OSS实战回顾，核心干货🔥 01-27 Agentic RL 强化学习 GPT-OSS