terminal

AI Stack

rss_feed
SYS_STABLE
目录

推理优化

条目:67
2026年二月 56 篇
类型阅读条目
[自动] [HACKER_NEWS]
6minnewspaper Unsloth Dynamic 2.0 发布:支持 GGUF 格式
02-28 Unsloth GGUF LLM
[自动] [BLOGS_PODCASTS]
3minmic AWS LMI 推理容器更新:提升性能与简化部署
02-28 AWS LMI LLM
[自动] [HACKER_NEWS]
6minnewspaper Unsloth Dynamic 2.0 推出 GGUF 格式模型
02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]
5minnewspaper Unsloth Dynamic 2.0 GGUFs 发布
02-28 Unsloth GGUF llama.cpp
[自动] [HACKER_NEWS]
5minnewspaper Unsloth发布Dynamic 2.0 GGUF模型
02-28 Unsloth GGUF 模型量化
[自动] [HACKER_NEWS]
5minnewspaper Unsloth推出Dynamic 2.0 GGUF模型
02-28 Unsloth GGUF 模型量化
[自动] [BLOGS_PODCASTS]
3minmic AWS LMI 容器更新:扩展模型支持并提升推理性能
02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升托管LLM性能并简化部署
02-27 AWS LMI LLM
[自动] [ARXIV]
4minschool DySCO:面向长上下文大模型的动态注意力缩放解码方法
02-27 DySCO 长上下文 解码算法
[自动] [ARXIV]
4minschool DySCO:面向长上下文大模型的动态注意力缩放解码
02-26 DySCO 长上下文 注意力机制
[自动] [BLOGS_PODCASTS]
5minmic AWS发布LMI容器更新:提升LLM托管性能与部署效率
02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic 在 SageMaker AI 与 Bedrock 上高效部署多 LoRA 模型
02-26 vLLM LoRA SageMaker
[自动] [ARXIV]
5minschool 为何Pass@k优化会降低Pass@1:大模型后训练中的提示干扰
02-25 LLM 后训练 代码生成
[自动] [HACKER_NEWS]
4minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练与推理性价比优化
02-24 SageMaker 弹性训练 推理优化
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-24 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年亚马逊SageMaker AI:增强可观测性与模型定制托管功能
02-24 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:弹性训练计划与推理性价比优化
02-24 SageMaker AWS 弹性训练
[自动] [ARXIV]
4minschool SPQ:面向大语言模型压缩的集成技术
02-24 LLM 模型压缩 SPQ
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练与推理优化
02-24 SageMaker AWS 模型训练
[自动] [ARXIV]
6minschool SPQ:大语言模型压缩的集成技术
02-23 模型压缩 LLM 量化
[自动] [BLOGS_PODCASTS]
3minmic 2025年Amazon SageMaker AI回顾:灵活训练计划与推理性价比提升
02-23 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025:弹性训练与推理优化
02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI提升可观测性并优化模型定制与托管
02-23 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比提升
02-23 SageMaker 弹性训练 推理优化
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比优化
02-23 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-23 Amazon SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic Amazon SageMaker AI 2025回顾:灵活训练计划与推理性价比优化
02-22 SageMaker AWS 模型训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年Amazon SageMaker AI回顾:可观测性、模型定制与托管增强
02-22 SageMaker AWS LLM
[自动] [HACKER_NEWS]
6minnewspaper 单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B
02-22 Llama 3.1 LLM 推理优化
[自动] [HACKER_NEWS]
6minnewspaper Llama 3.1 70B 单卡 RTX 3090 部署:利用 NVMe 直连 GPU 绕过 CPU
02-22 Llama 3.1 RTX 3090 NVMe
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入Hugging Face推动本地AI发展
02-21 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]
3minmic Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升
02-21 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
3minmic Amazon SageMaker AI 2025回顾:可观测性与模型定制托管增强
02-21 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
3minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比提升
02-21 SageMaker AWS 弹性训练
[自动] [ARXIV]
4minschool 面向扩散语言模型的Sink感知剪枝方法
02-20 扩散模型 语言模型 模型剪枝
[自动] [BLOGS_PODCASTS]
4minmic 使用Unsloth和Hugging Face Jobs免费训练AI模型
02-20 Unsloth Hugging Face 免费训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年回顾:SageMaker AI弹性训练计划与推理性价比优化
02-20 SageMaker AWS 弹性训练
[自动] [BLOGS_PODCASTS]
4minmic 2025年Amazon SageMaker AI增强可观测性与模型定制托管功能
02-20 SageMaker AWS LLM
[自动] [BLOGS_PODCASTS]
4minmic GGML与llama.cpp加入HF推动本地AI长期发展
02-20 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]
5minnewspaper 基于注意力匹配机制实现快速KV压缩
02-20 KV压缩 注意力机制 推理优化
[自动] [HACKER_NEWS]
4minnewspaper Step 3.5 Flash 开源基础模型:支持高速深度推理
02-19 Step 3.5 Flash 开源模型 深度推理
[自动] [ARXIV]
5minschool 异步验证语义缓存优化分层大模型架构
02-17 语义缓存 LLM架构 异步验证
[自动] [HACKER_NEWS]
7minnewspaper LCM:无损上下文管理技术论文
02-16 LCM 上下文管理 无损
[自动] [HACKER_NEWS]
5minnewspaper LLM Agent 成本呈二次方增长:算力开销分析
02-16 LLM Agent 成本分析
[自动] [ARXIV]
4minschool 扩展验证比扩展策略学习更有效实现视觉-语言-动作对齐
02-14 VLA 具身智能 机器人
[自动] [ARXIV]
5minschool Agentic WebAgents 的测试时缩放方法
02-13 WebAgents 测试时缩放 CATTS
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA Nemotron 3 Nano 30B 现已登陆 Amazon SageMaker JumpSt
02-12 NVIDIA Nemotron AWS
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA Nemotron 3 Nano 30B 现已在 Amazon SageMaker JumpSta
02-12 NVIDIA AWS SageMaker
[自动] [BLOGS_PODCASTS]
4minmic NVIDIA Nemotron 3 Nano 30B 模型现已在 Amazon SageMaker JumpS
02-12 NVIDIA Nemotron AWS
[自动] [HACKER_NEWS]
2minnewspaper Pure C, CPU-only inference with Mistral Voxtral Realtim
02-10 C语言 语音识别 Mistral
[自动] [HACKER_NEWS]
5minnewspaper 纯C语言无依赖实现Mistral Voxtral 4B语音转文本推理
02-10 C语言 Mistral Voxtral
[自动] [ARXIV]
3minschool 面向运行时智能体记忆的查询感知预算分层路由
02-06 Agent Memory RAG
[自动] [HACKER_NEWS]
6minnewspaper 基于对称感知泰勒近似实现恒定Token成本注意力机制
02-05 注意力机制 Transformer 泰勒近似
[自动] [HACKER_NEWS]
6minnewspaper 基于对称性泰勒近似实现恒定Token成本注意力机制
02-04 注意力机制 Transformer 泰勒近似
[自动] [ARXIV]
4minschool Parallel-Probe:通过2D探测实现高效并行思维
02-04 LLM 并行推理 思维链
2026年一月 11 篇
类型阅读条目
[自动] [ARXIV]
5minschool 混合线性注意力新架构:高效蒸馏与超长上下文建模
01-31 线性注意力 长上下文 混合架构
[自动] [HACKER_NEWS]
5minnewspaper Kimi K2.5 技术报告发布:模型架构与训练细节
01-31 Kimi K2.5 Moonshot AI 技术报告
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:架构与性能细节
01-31 Kimi K2.5 Moonshot
[自动] [ARXIV]
3minschool 发现模型仓库中被忽视的高质量模型
01-30 模型评估 Llama-3.1 微调
[自动] [ARXIV]
3minschool 面向大语言模型的时间引导机制
01-30 LLM 对比解码 时间引导
[自动] [HACKER_NEWS]
5minnewspaper Trinity Large:开源4000亿参数稀疏MoE模型
01-29 MoE 稀疏模型 Trinity
[自动] [HACKER_NEWS]
5minnewspaper Trinity Large:开源4000亿稀疏MoE模型
01-29 MoE 稀疏模型 Trinity
[自动] [BLOGS_PODCASTS]
3minmic 中国开源AI生态:超越DeepSeek的架构突围!🏗️🔥
01-28 DeepSeek MoE 架构设计
[自动] [ARXIV]
5minschool 🚀RL新突破!复用FLOPs,硬难题上通过离线前缀扩展
01-27 PrefixRL 强化学习 LLM
[自动] [BLOGS_PODCASTS]
4minmic 🇨🇳中国开源AI生态:深求之外,架构如何突围?🚀
01-27 DeepSeek 架构设计 MoE
[自动] [BLOGS_PODCASTS]
4minmic 揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥
01-27 Agentic RL 强化学习 GPT-OSS