目录
推理优化
条目:67
2026年二月
56 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 6min | newspaper
Unsloth Dynamic 2.0 发布:支持 GGUF 格式 02-28
Unsloth
GGUF
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS LMI 推理容器更新:提升性能与简化部署 02-28
AWS
LMI
LLM |
[自动]
[HACKER_NEWS] | 6min | newspaper
Unsloth Dynamic 2.0 推出 GGUF 格式模型 02-28
Unsloth
GGUF
模型量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Unsloth Dynamic 2.0 GGUFs 发布 02-28
Unsloth
GGUF
llama.cpp |
[自动]
[HACKER_NEWS] | 5min | newspaper
Unsloth发布Dynamic 2.0 GGUF模型 02-28
Unsloth
GGUF
模型量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Unsloth推出Dynamic 2.0 GGUF模型 02-28
Unsloth
GGUF
模型量化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS LMI 容器更新:扩展模型支持并提升推理性能 02-27
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS发布LMI容器更新:提升托管LLM性能并简化部署 02-27
AWS
LMI
LLM |
[自动]
[ARXIV] | 4min | school
DySCO:面向长上下文大模型的动态注意力缩放解码方法 02-27
DySCO
长上下文
解码算法 |
[自动]
[ARXIV] | 4min | school
DySCO:面向长上下文大模型的动态注意力缩放解码 02-26
DySCO
长上下文
注意力机制 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
AWS发布LMI容器更新:提升LLM托管性能与部署效率 02-26
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 SageMaker AI 与 Bedrock 上高效部署多 LoRA 模型 02-26
vLLM
LoRA
SageMaker |
[自动]
[ARXIV] | 5min | school
为何Pass@k优化会降低Pass@1:大模型后训练中的提示干扰 02-25
LLM
后训练
代码生成 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Mercury 2:基于扩散模型的最快推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年回顾:SageMaker AI弹性训练与推理性价比优化 02-24
SageMaker
弹性训练
推理优化 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升 02-24
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年亚马逊SageMaker AI:增强可观测性与模型定制托管功能 02-24
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2025年Amazon SageMaker AI回顾:弹性训练计划与推理性价比优化 02-24
SageMaker
AWS
弹性训练 |
[自动]
[ARXIV] | 4min | school
SPQ:面向大语言模型压缩的集成技术 02-24
LLM
模型压缩
SPQ |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练与推理优化 02-24
SageMaker
AWS
模型训练 |
[自动]
[ARXIV] | 6min | school
SPQ:大语言模型压缩的集成技术 02-23
模型压缩
LLM
量化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2025年Amazon SageMaker AI回顾:灵活训练计划与推理性价比提升 02-23
SageMaker
AWS
模型训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025:弹性训练与推理优化 02-23
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年回顾:SageMaker AI提升可观测性并优化模型定制与托管 02-23
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年回顾:SageMaker AI弹性训练计划与推理性价比提升 02-23
SageMaker
弹性训练
推理优化 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比优化 02-23
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升 02-23
Amazon SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon SageMaker AI 2025回顾:灵活训练计划与推理性价比优化 02-22
SageMaker
AWS
模型训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年Amazon SageMaker AI回顾:可观测性、模型定制与托管增强 02-22
SageMaker
AWS
LLM |
[自动]
[HACKER_NEWS] | 6min | newspaper
单张 RTX 3090 利用 NVMe 绕过 CPU 运行 Llama 3.1 70B 02-22
Llama 3.1
LLM
推理优化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Llama 3.1 70B 单卡 RTX 3090 部署:利用 NVMe 直连 GPU 绕过 CPU 02-22
Llama 3.1
RTX 3090
NVMe |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GGML与llama.cpp加入Hugging Face推动本地AI发展 02-21
GGML
llama.cpp
Hugging Face |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon SageMaker AI 2025回顾:弹性训练计划与推理性价比提升 02-21
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon SageMaker AI 2025回顾:可观测性与模型定制托管增强 02-21
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2025年回顾:SageMaker AI弹性训练计划与推理性价比提升 02-21
SageMaker
AWS
弹性训练 |
[自动]
[ARXIV] | 4min | school
面向扩散语言模型的Sink感知剪枝方法 02-20
扩散模型
语言模型
模型剪枝 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用Unsloth和Hugging Face Jobs免费训练AI模型 02-20
Unsloth
Hugging Face
免费训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年回顾:SageMaker AI弹性训练计划与推理性价比优化 02-20
SageMaker
AWS
弹性训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年Amazon SageMaker AI增强可观测性与模型定制托管功能 02-20
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
GGML与llama.cpp加入HF推动本地AI长期发展 02-20
GGML
llama.cpp
Hugging Face |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于注意力匹配机制实现快速KV压缩 02-20
KV压缩
注意力机制
推理优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Step 3.5 Flash 开源基础模型:支持高速深度推理 02-19
Step 3.5 Flash
开源模型
深度推理 |
[自动]
[ARXIV] | 5min | school
异步验证语义缓存优化分层大模型架构 02-17
语义缓存
LLM架构
异步验证 |
[自动]
[HACKER_NEWS] | 7min | newspaper
LCM:无损上下文管理技术论文 02-16
LCM
上下文管理
无损 |
[自动]
[HACKER_NEWS] | 5min | newspaper
LLM Agent 成本呈二次方增长:算力开销分析 02-16
LLM
Agent
成本分析 |
[自动]
[ARXIV] | 4min | school
扩展验证比扩展策略学习更有效实现视觉-语言-动作对齐 02-14
VLA
具身智能
机器人 |
[自动]
[ARXIV] | 5min | school
Agentic WebAgents 的测试时缩放方法 02-13
WebAgents
测试时缩放
CATTS |
[自动]
[BLOGS_PODCASTS] | 4min | mic
NVIDIA Nemotron 3 Nano 30B 现已登陆 Amazon SageMaker JumpSt 02-12
NVIDIA
Nemotron
AWS |
[自动]
[BLOGS_PODCASTS] | 4min | mic
NVIDIA Nemotron 3 Nano 30B 现已在 Amazon SageMaker JumpSta 02-12
NVIDIA
AWS
SageMaker |
[自动]
[BLOGS_PODCASTS] | 4min | mic
NVIDIA Nemotron 3 Nano 30B 模型现已在 Amazon SageMaker JumpS 02-12
NVIDIA
Nemotron
AWS |
[自动]
[HACKER_NEWS] | 2min | newspaper
Pure C, CPU-only inference with Mistral Voxtral Realtim 02-10
C语言
语音识别
Mistral |
[自动]
[HACKER_NEWS] | 5min | newspaper
纯C语言无依赖实现Mistral Voxtral 4B语音转文本推理 02-10
C语言
Mistral
Voxtral |
[自动]
[ARXIV] | 3min | school
面向运行时智能体记忆的查询感知预算分层路由 02-06
Agent
Memory
RAG |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称感知泰勒近似实现恒定Token成本注意力机制 02-05
注意力机制
Transformer
泰勒近似 |
[自动]
[HACKER_NEWS] | 6min | newspaper
基于对称性泰勒近似实现恒定Token成本注意力机制 02-04
注意力机制
Transformer
泰勒近似 |
[自动]
[ARXIV] | 4min | school
Parallel-Probe:通过2D探测实现高效并行思维 02-04
LLM
并行推理
思维链 |
2026年一月
11 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
混合线性注意力新架构:高效蒸馏与超长上下文建模 01-31
线性注意力
长上下文
混合架构 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Kimi K2.5 技术报告发布:模型架构与训练细节 01-31
Kimi K2.5
Moonshot AI
技术报告 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:架构与性能细节 01-31
Kimi
K2.5
Moonshot |
[自动]
[ARXIV] | 3min | school
发现模型仓库中被忽视的高质量模型 01-30
模型评估
Llama-3.1
微调 |
[自动]
[ARXIV] | 3min | school
面向大语言模型的时间引导机制 01-30
LLM
对比解码
时间引导 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Trinity Large:开源4000亿参数稀疏MoE模型 01-29
MoE
稀疏模型
Trinity |
[自动]
[HACKER_NEWS] | 5min | newspaper
Trinity Large:开源4000亿稀疏MoE模型 01-29
MoE
稀疏模型
Trinity |
[自动]
[BLOGS_PODCASTS] | 3min | mic
中国开源AI生态:超越DeepSeek的架构突围!🏗️🔥 01-28
DeepSeek
MoE
架构设计 |
[自动]
[ARXIV] | 5min | school
🚀RL新突破!复用FLOPs,硬难题上通过离线前缀扩展 01-27
PrefixRL
强化学习
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
🇨🇳中国开源AI生态:深求之外,架构如何突围?🚀 01-27
DeepSeek
架构设计
MoE |
[自动]
[BLOGS_PODCASTS] | 4min | mic
揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥 01-27
Agentic RL
强化学习
GPT-OSS |
无匹配条目