模型推理

条目：54

2026年五月 1 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	1min	newspaper Δ-Mem：大型语言模型的高效在线记忆机制 05-16 LLM 记忆机制效率优化

2026年四月 2 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart 04-28 NVIDIA Nemotron SageMaker JumpStart 模型部署
[自动] [JUEJIN]	1min	sticky_note_2 大模型In-context Learning：看例子而非真正学习 04-20 In-context Learning 大语言模型上下文学习

2026年三月 17 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic Introducing GPT-5.4 mini and nano 03-18 GPT-5.4 OpenAI 小模型
[自动] [ARXIV]	3min	school Reasoning Theater：解耦模型信念与思维链 03-09 CoT 模型推理思维链
[自动] [ARXIV]	3min	school 利用大模型参数化知识实现无检索的事实核查 03-08 事实核查无检索参数化知识
[自动] [ARXIV]	3min	school Reasoning Theater：解耦模型信念与思维链 03-08 思维链 CoT 模型推理
[自动] [HACKER_NEWS]	5min	newspaper 本地部署 Qwen 3.5 大模型的方法与流程 03-08 Qwen 本地部署 LLM
[自动] [HACKER_NEWS]	1min	newspaper 如何在本地部署运行 Qwen 3.5 大模型 03-08 Qwen 本地部署 LLM
[自动] [HACKER_NEWS]	5min	newspaper 如何在本地运行 Qwen 3.5 模型 03-08 Qwen 本地部署 LLM
[自动] [HACKER_NEWS]	5min	newspaper 如何在本地部署并运行 Qwen 3.5 大模型 03-08 Qwen 本地部署 LLM
[自动] [JUEJIN]	2min	sticky_note_2 AI Agent 工程师指南：深入解析 Zero-shot 与 Few-shot 核心概念 03-07 AI Agent LLM Zero-shot
[自动] [BLOGS_PODCASTS]	2min	mic Gemini 3.1 Flash Lite：面向规模化智能构建的轻量级模型 03-05 Gemini Flash Lite 轻量级模型
[自动] [BLOGS_PODCASTS]	3min	mic Gemini 3.1 Flash Lite：面向大规模智能应用构建 03-04 Gemini Google Flash-Lite
[自动] [BLOGS_PODCASTS]	3min	mic Gemini 3.1 Flash-Lite：速度最快且性价比最高的3系模型 03-04 Gemini Google Flash-Lite
[自动] [HACKER_NEWS]	1min	newspaper Speculative Decoding：SSD加速大模型推理 03-04 Speculative Decoding SSD 模型推理
[自动] [HACKER_NEWS]	1min	newspaper 推测性推测解码：SSD 加速大模型推理 03-04 SSD 推测解码模型推理
[自动] [HACKER_NEWS]	1min	newspaper 推测性推测解码：SSD加速大模型推理 03-04 SSD 推测解码模型推理
[自动] [JUEJIN]	3min	sticky_note_2 Ollama 本地部署开源大模型指南与代码实践 03-02 Ollama LLM 本地部署
[自动] [HACKER_NEWS]	1min	newspaper MCP服务器将Claude Code上下文消耗降低98% 03-01 MCP Claude Code 上下文优化

2026年二月 33 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	3min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic AWS LMI 容器更新：提升托管 LLM 性能并简化部署 02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic 利用 vLLM 在 SageMaker 与 Bedrock 上高效托管多 LoRA 模型 02-27 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic AWS LMI 容器更新：提升托管 LLM 性能与部署效率 02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 与 Bedrock 上利用 vLLM 部署多 LoRA 推理 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	3min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic 利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic 在 SageMaker 与 Bedrock 上利用 vLLM 实现多 LoRA 推理及内核优化 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker AI 与 Amazon Bedrock 上使用 vLLM 高效部署多 LoRA 模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 在SageMaker AI与Bedrock上利用vLLM高效部署多LoRA及MoE模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker AI 与 Bedrock 上使用 vLLM 高效服务多 LoRA 模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker AI 与 Bedrock 上利用 vLLM 高效部署多 LoRA 模型 02-25 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Bedrock在亚太六地推Claude模型全球跨区域推理 02-25 Amazon Bedrock Claude Anthropic
[自动] [HACKER_NEWS]	1min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]	1min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]	1min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]	1min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-24 STT Whisper Moonshine
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Bedrock 新增中东区域支持 Anthropic Claude 模型推理 02-24 AWS Amazon Bedrock Anthropic
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入Hugging Face推动本地AI长期发展 02-24 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入HF以保障本地AI长期发展 02-23 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入HF，推动本地AI长期发展 02-23 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入HF以保障本地AI长期发展 02-22 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]	1min	newspaper 推理服务商如何证明未提供量化模型 02-21 模型推理模型量化零知识证明
[自动] [BLOGS_PODCASTS]	4min	mic GGML与llama.cpp加入HF以推动本地AI长期发展 02-21 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]	1min	newspaper 利用注意力匹配加速 KV 缓存压缩 02-20 KV Cache 注意力机制模型推理
[自动] [BLOGS_PODCASTS]	3min	mic Qwen3.5-397B-A17B：最小Open-Opus级高效模型 02-19 Qwen3.5 MoE 稀疏模型
[自动] [ARXIV]	3min	school GENIUS：生成式流体智能评估套件 02-13 GENIUS 流体智力多模态评估
[自动] [HACKER_NEWS]	5min	newspaper 在 Linux 上安装 Ollama 并部署 Gemma 3B 模型 02-07 Ollama Gemma LLM
[自动] [HACKER_NEWS]	5min	newspaper 对称感知泰勒近似实现恒定Token成本注意力机制 02-04 Attention机制 Taylor近似 Token成本
[自动] [HACKER_NEWS]	6min	newspaper iPhone 16 Pro Max 运行 MLX 大模型输出质量异常 02-02 MLX LLM Apple Silicon

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 突破极限！AI如何教会自己推理？🤯 边缘学习性的惊天秘密！🚀 01-27 SOAR 强化学习元学习