terminal

AI Stack

rss_feed
SYS_STABLE
目录

推理优化

条目:115
2026年三月 48 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Amazon Bedrock环境部署Nemotron 3 Super模型指南
03-20 Nemotron 3 Amazon Bedrock AWS
[自动] [BLOGS_PODCASTS]
3minmic OpenAI发布GPT-4o mini与nano:更小更快,优化编码与多模态推理
03-18 OpenAI GPT-4o 模型发布
[自动] [BLOGS_PODCASTS]
3minmic Nemotron 3 Nano 4B:面向高效本地 AI 的紧凑混合模型
03-18 Nemotron 本地部署 混合模型
[自动] [BLOGS_PODCASTS]
3minmic Introducing Disaggregated Inference on AWS powered by l
03-18 AWS llm-d 解耦推理
[自动] [HACKER_NEWS]
1minnewspaper Mistral AI 发布 Forge:微调与推理优化工具
03-18 Mistral AI Forge 模型微调
[自动] [BLOGS_PODCASTS]
3minmic OpenAI发布GPT-4o mini与nano:更小更快,优化代码与多模态
03-17 OpenAI GPT-4o 模型发布
[自动] [BLOGS_PODCASTS]
3minmic AWS 解耦式推理技术解析:基于 SageMaker HyperPod 的性能优化实践
03-17 AWS SageMaker 推理优化
[自动] [HACKER_NEWS]
1minnewspaper OpenAI发布GPT‑5.4 Mini与Nano模型
03-17 OpenAI GPT-5.4 Mini模型
[自动] [BLOGS_PODCASTS]
3minmic AWS 基于 LLM-d 的解耦推理技术及 SageMaker HyperPod EKS 实践
03-17 AWS LLM 推理优化
[自动] [BLOGS_PODCASTS]
4minmic AWS 基于llm-d推出分离式推理:解耦服务与智能调度
03-17 AWS LLM 推理优化
[自动] [BLOGS_PODCASTS]
1minmic AWS 解耦式推理技术解析:解耦服务、智能调度与专家并行
03-17 AWS LLM 推理优化
[自动] [ARXIV]
1minschool 合成监督学习优化视频问答关键帧选择
03-17 VideoQA 关键帧选择 多模态模型
[自动] [BLOGS_PODCASTS]
3minmic AWS 推出基于 llm-d 的分离式推理技术
03-17 AWS llm-d 推理优化
[自动] [BLOGS_PODCASTS]
3minmic Improve operational visibility for inference workloads
03-16 AWS Amazon Bedrock CloudWatch
[自动] [BLOGS_PODCASTS]
3minmic AWS 推出基于 LLM-d 的分离式推理技术及 SageMaker HyperPod 实践
03-16 AWS LLM 推理优化
[自动] [BLOGS_PODCASTS]
3minmic AWS 解耦式推理技术解析:服务解耦、智能调度与专家并行
03-16 AWS 推理优化 解耦式服务
[自动] [BLOGS_PODCASTS]
3minmic Amazon Bedrock 新增 CloudWatch 指标:TTFT 与配额监控
03-16 Amazon Bedrock CloudWatch LLM
[自动] [BLOGS_PODCASTS]
2minmic Amazon Bedrock 新增 CloudWatch 指标,支持监控 TTFT 和配额消耗
03-16 Amazon Bedrock CloudWatch LLM
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock新增CloudWatch指标:监控TTFT与配额消耗
03-16 Amazon Bedrock CloudWatch TTFT
[自动] [HACKER_NEWS]
1minnewspaper LLM Architecture Gallery
03-16 LLM 架构设计 模型部署
[自动] [HACKER_NEWS]
4minnewspaper LLM Architecture Gallery
03-16 LLM 架构设计 模型部署
[自动] [ARXIV]
4minschool BiGain:面向生成与分类任务的统一Token压缩方法
03-14 BiGain Token压缩 扩散模型
[自动] [BLOGS_PODCASTS]
2minmic Improve operational visibility for inference workloads
03-14 Amazon Bedrock CloudWatch LLM
[自动] [HACKER_NEWS]
1minnewspaper 在本地设备运行 AI 模型的硬件与软件指南
03-14 本地部署 边缘计算 硬件指南
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock 新增 CloudWatch 指标:TTFT 与配额监控
03-14 Amazon Bedrock CloudWatch LLM
[自动] [HACKER_NEWS]
1minnewspaper Context Gateway:在LLM前压缩Agent上下文
03-14 LLM Agent 上下文压缩
[自动] [ARXIV]
4minschool BiGain:面向生成与分类任务的统一Token压缩
03-13 BiGain Token压缩 扩散模型
[自动] [HACKER_NEWS]
1minnewspaper Context Gateway:压缩Agent上下文以降低LLM调用成本
03-13 LLM Agent 上下文压缩
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock新增CloudWatch指标:TTFT与配额消耗监控
03-13 Amazon Bedrock CloudWatch TTFT
[自动] [HACKER_NEWS]
1minnewspaper 本地运行AI的可行性评估与硬件配置指南
03-13 本地部署 硬件配置 LLM
[自动] [BLOGS_PODCASTS]
3minmic Amazon Bedrock 新增 CloudWatch 指标:TTFT 与估算配额使用率
03-12 Amazon Bedrock CloudWatch TTFT
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA AI-Q登顶DeepResearch Bench I与II榜单
03-12 NVIDIA AI-Q DeepResearch
[自动] [HACKER_NEWS]
1minnewspaper BitNet:面向本地CPU的1000亿参数1比特模型
03-12 BitNet 1-bit 量化
[自动] [HACKER_NEWS]
1minnewspaper BitNet: 100B Param 1-Bit model for local CPUs
03-12 BitNet 1-bit 量化
[自动] [HACKER_NEWS]
1minnewspaper BitNet:支持本地CPU运行的1000亿参数1比特模型
03-11 BitNet 1-bit 量化
[自动] [HACKER_NEWS]
1minnewspaper 微软BitNet:可在本地CPU运行的1000亿参数1比特模型
03-11 BitNet 1-bit 量化
[自动] [HACKER_NEWS]
1minnewspaper 超越vLLM性能的自研推理栈技术解析
03-11 推理优化 vLLM 性能调优
[自动] [BLOGS_PODCASTS]
2minmic 英伟达工程师对话:行星级Agent推理与光速计算
03-11 NVIDIA GTC Agent
[自动] [BLOGS_PODCASTS]
3minmic 英伟达工程师探讨行星级智能体推理与光速计算
03-10 NVIDIA GTC AI Agent
[自动] [BLOGS_PODCASTS]
2minmic 从16个开源强化学习库中总结的Token流优化经验
03-10 强化学习 RLHF Token流
[自动] [BLOGS_PODCASTS]
2minmic 从16个开源强化学习库中总结的Token流优化经验
03-10 强化学习 RL Token流
[自动] [ARXIV]
4minschool SERQ:基于显著性感知的低秩误差重构LLM量化方法
03-10 LLM量化 SERQ PTQ
[自动] [HACKER_NEWS]
5minnewspaper 如何在本地运行 Qwen 3.5 大模型
03-08 Qwen 3.5 本地部署 LLM
[自动] [BLOGS_PODCASTS]
3minmic 在SageMaker上部署SGLang并集成Strands智能体自定义模型
03-06 SageMaker SGLang Llama 3.1
[自动] [ARXIV]
4minschool 多头低秩注意力机制
03-04 MLRA KV Cache 注意力机制
[自动] [HACKER_NEWS]
1minnewspaper GPT‑5.3 Instant 模型发布
03-03 OpenAI GPT-5.3 Instant
[自动] [ARXIV]
4minschool KVSlimmer:非对称KV合并的理论洞察与优化
03-03 LLM KV Cache 推理优化
[自动] [ARXIV]
3minschool LLM是否受益于自身生成的文本
03-02 LLM 多轮对话 上下文学习
2026年二月 56 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper Unsloth Dynamic 2.0 发布:支持 GGUF 格式
02-28 Unsloth GGUF LLM
[自动] [BLOGS_PODCASTS]
3minmic AWS LMI 推理容器更新:提升性能与简化部署
02-28 AWS LMI LLM
[自动] [HACKER_NEWS]
1minnewspaper Unsloth Dynamic 2.0 推出 GGUF 格式模型
02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]
1minnewspaper Unsloth Dynamic 2.0 GGUFs 发布
02-28 Unsloth GGUF llama.cpp
[自动] [HACKER_NEWS]
1minnewspaper Unsloth发布Dynamic 2.0 GGUF模型
02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]
1minnewspaper Unsloth推出Dynamic 2.0 GGUF模型
02-28 Unsloth GGUF 模型量化
[自动] [BLOGS_PODCASTS]
3minmic AWS LMI 容器更新:扩展模型支持并提升推理性能
02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升托管LLM性能并简化部署
02-27 AWS LMI LLM
[自动] [ARXIV]
3minschool DySCO:面向长上下文大模型的动态注意力缩放解码方法
02-27 DySCO 长上下文 解码算法
[自动] [ARXIV]
3minschool DySCO:面向长上下文大模型的动态注意力缩放解码
02-26 DySCO 长上下文 注意力机制
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升LLM托管性能与部署效率
02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic 在 SageMaker AI 与 Bedrock 上高效部署多 LoRA 模型
02-26 vLLM LoRA SageMaker
[自动] [ARXIV]
5minschool 为何Pass@k优化会降低Pass@1:大模型后训练中的提示干扰
02-25 LLM 后训练 代码生成
[自动] [HACKER_NEWS]
1minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练与推理性价比优化
02-24 SageMaker 弹性训练 推理优化
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-24 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年亚马逊SageMaker AI:增强可观测性与模型定制托管功能
02-24 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:弹性训练计划与推理性价比优化
02-24 SageMaker AWS 弹性训练
[自动] [ARXIV]
4minschool SPQ:面向大语言模型压缩的集成技术
02-24 LLM 模型压缩 SPQ
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练与推理优化
02-24 SageMaker AWS 模型训练
[自动] [ARXIV]
4minschool SPQ:大语言模型压缩的集成技术
02-23 模型压缩 LLM 量化
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:灵活训练计划与推理性价比提升
02-23 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025:弹性训练与推理优化
02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI提升可观测性并优化模型定制与托管
02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比提升
02-23 SageMaker 弹性训练 推理优化
[自动] [BLOGS_PODCASTS]
3minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比优化
02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-23 Amazon SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:灵活训练计划与推理性价比优化
02-22 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:可观测性、模型定制与托管增强
02-22 SageMaker AWS LLM
[自动] [HACKER_NEWS]
2minnewspaper 单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B
02-22 Llama 3.1 LLM 推理优化
[自动] [HACKER_NEWS]
2minnewspaper Llama 3.1 70B 单卡 RTX 3090 部署:利用 NVMe 直连 GPU 绕过 CPU
02-22 Llama 3.1 RTX 3090 NVMe
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入Hugging Face推动本地AI发展
02-21 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]
3minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-21 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
3minmic Amazon SageMaker AI 2025回顾:可观测性与模型定制托管增强
02-21 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
3minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比提升
02-21 SageMaker AWS 弹性训练
[自动] [ARXIV]
3minschool 面向扩散语言模型的Sink感知剪枝方法
02-20 扩散模型 语言模型 模型剪枝
[自动] [BLOGS_PODCASTS]
3minmic 使用Unsloth和Hugging Face Jobs免费训练AI模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比优化
02-20 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年Amazon SageMaker AI增强可观测性与模型定制托管功能
02-20 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic GGML与llama.cpp加入HF推动本地AI长期发展
02-20 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]
1minnewspaper 基于注意力匹配机制实现快速KV压缩
02-20 KV压缩 注意力机制 推理优化
[自动] [HACKER_NEWS]
1minnewspaper Step 3.5 Flash 开源基础模型:支持高速深度推理
02-19 Step 3.5 Flash 开源模型 深度推理
[自动] [ARXIV]
5minschool 异步验证语义缓存优化分层大模型架构
02-17 语义缓存 LLM架构 异步验证
[自动] [HACKER_NEWS]
7minnewspaper LCM:无损上下文管理技术论文
02-16 LCM 上下文管理 无损
[自动] [HACKER_NEWS]
5minnewspaper LLM Agent 成本呈二次方增长:算力开销分析
02-16 LLM Agent 成本分析
[自动] [ARXIV]
4minschool 扩展验证比扩展策略学习更有效实现视觉-语言-动作对齐
02-14 VLA 具身智能 机器人
[自动] [ARXIV]
5minschool Agentic WebAgents 的测试时缩放方法
02-13 WebAgents 测试时缩放 CATTS
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA Nemotron 3 Nano 30B 现已登陆 Amazon SageMaker JumpSt
02-12 NVIDIA Nemotron AWS
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA Nemotron 3 Nano 30B 现已在 Amazon SageMaker JumpSta
02-12 NVIDIA AWS SageMaker
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA Nemotron 3 Nano 30B 模型现已在 Amazon SageMaker JumpS
02-12 NVIDIA Nemotron AWS
[自动] [HACKER_NEWS]
2minnewspaper Pure C, CPU-only inference with Mistral Voxtral Realtim
02-10 C语言 语音识别 Mistral
[自动] [HACKER_NEWS]
5minnewspaper 纯C语言无依赖实现Mistral Voxtral 4B语音转文本推理
02-10 C语言 Mistral Voxtral
[自动] [ARXIV]
3minschool 面向运行时智能体记忆的查询感知预算分层路由
02-06 Agent Memory RAG
[自动] [HACKER_NEWS]
6minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [ARXIV]
3minschool Parallel-Probe:通过2D探测实现高效并行思维
02-04 LLM 并行推理 思维链
2026年一月 11 篇
类型阅读条目
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与超长上下文建模
01-31 线性注意力 长上下文 混合架构
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:模型架构与训练细节
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:架构与性能细节
01-31 Kimi K2.5 Moonshot
[自动] [ARXIV]
3minschool 发现模型仓库中被忽视的高质量模型
01-30 模型评估 Llama-3.1 微调
[自动] [ARXIV]
3minschool 面向大语言模型的时间引导机制
01-30 LLM 对比解码 时间引导
[自动] [HACKER_NEWS]
5minnewspaper Trinity Large:开源4000亿参数稀疏MoE模型
01-29 MoE 稀疏模型 Trinity
[自动] [HACKER_NEWS]
5minnewspaper Trinity Large:开源4000亿稀疏MoE模型
01-29 MoE 稀疏模型 Trinity
[自动] [BLOGS_PODCASTS]
3minmic 中国开源AI生态:超越DeepSeek的架构突围!🏗️🔥
01-28 DeepSeek MoE 架构设计
[自动] [ARXIV]
5minschool 🚀RL新突破!复用FLOPs,硬难题上通过离线前缀扩展
01-27 PrefixRL 强化学习 LLM
[自动] [BLOGS_PODCASTS]
4minmic 🇨🇳中国开源AI生态:深求之外,架构如何突围?🚀
01-27 DeepSeek 架构设计 MoE
[自动] [BLOGS_PODCASTS]
4minmic 揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥
01-27 Agentic RL 强化学习 GPT-OSS