模型推理

条目：34

2026年二月 33 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic AWS LMI 容器更新：提升托管 LLM 性能并简化部署 02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic 利用 vLLM 在 SageMaker 与 Bedrock 上高效托管多 LoRA 模型 02-27 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic AWS LMI 容器更新：提升托管 LLM 性能与部署效率 02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 与 Bedrock 上利用 vLLM 部署多 LoRA 推理 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	3min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	5min	mic 利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic AWS发布LMI容器更新：提升LLM托管性能并简化部署 02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]	4min	mic 在 SageMaker 与 Bedrock 上利用 vLLM 实现多 LoRA 推理及内核优化 02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker AI 与 Amazon Bedrock 上使用 vLLM 高效部署多 LoRA 模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 在SageMaker AI与Bedrock上利用vLLM高效部署多LoRA及MoE模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker AI 与 Bedrock 上使用 vLLM 高效服务多 LoRA 模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型 02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker AI 与 Bedrock 上利用 vLLM 高效部署多 LoRA 模型 02-25 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Bedrock在亚太六地推Claude模型全球跨区域推理 02-25 Amazon Bedrock Claude Anthropic
[自动] [HACKER_NEWS]	5min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]	5min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]	5min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]	7min	newspaper Moonshine 开源 STT 模型：精度超越 WhisperLargev3 02-24 STT Whisper Moonshine
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Bedrock 新增中东区域支持 Anthropic Claude 模型推理 02-24 AWS Amazon Bedrock Anthropic
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入Hugging Face推动本地AI长期发展 02-24 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入HF以保障本地AI长期发展 02-23 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入HF，推动本地AI长期发展 02-23 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]	3min	mic GGML与llama.cpp加入HF以保障本地AI长期发展 02-22 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]	4min	newspaper 推理服务商如何证明未提供量化模型 02-21 模型推理模型量化零知识证明
[自动] [BLOGS_PODCASTS]	4min	mic GGML与llama.cpp加入HF以推动本地AI长期发展 02-21 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]	5min	newspaper 利用注意力匹配加速 KV 缓存压缩 02-20 KV Cache 注意力机制模型推理
[自动] [BLOGS_PODCASTS]	3min	mic Qwen3.5-397B-A17B：最小Open-Opus级高效模型 02-19 Qwen3.5 MoE 稀疏模型
[自动] [ARXIV]	3min	school GENIUS：生成式流体智能评估套件 02-13 GENIUS 流体智力多模态评估
[自动] [HACKER_NEWS]	5min	newspaper 在 Linux 上安装 Ollama 并部署 Gemma 3B 模型 02-07 Ollama Gemma LLM
[自动] [HACKER_NEWS]	5min	newspaper 对称感知泰勒近似实现恒定Token成本注意力机制 02-04 Attention机制 Taylor近似 Token成本
[自动] [HACKER_NEWS]	6min	newspaper iPhone 16 Pro Max 运行 MLX 大模型输出质量异常 02-02 MLX LLM Apple Silicon

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 突破极限！AI如何教会自己推理？🤯 边缘学习性的惊天秘密！🚀 01-27 SOAR 强化学习元学习