terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型推理

条目:51
2026年三月 17 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic Introducing GPT-5.4 mini and nano
03-18 GPT-5.4 OpenAI 小模型
[自动] [ARXIV]
3minschool Reasoning Theater:解耦模型信念与思维链
03-09 CoT 模型推理 思维链
[自动] [ARXIV]
3minschool 利用大模型参数化知识实现无检索的事实核查
03-08 事实核查 无检索 参数化知识
[自动] [ARXIV]
3minschool Reasoning Theater:解耦模型信念与思维链
03-08 思维链 CoT 模型推理
[自动] [HACKER_NEWS]
5minnewspaper 本地部署 Qwen 3.5 大模型的方法与流程
03-08 Qwen 本地部署 LLM
[自动] [HACKER_NEWS]
1minnewspaper 如何在本地部署运行 Qwen 3.5 大模型
03-08 Qwen 本地部署 LLM
[自动] [HACKER_NEWS]
5minnewspaper 如何在本地运行 Qwen 3.5 模型
03-08 Qwen 本地部署 LLM
[自动] [HACKER_NEWS]
5minnewspaper 如何在本地部署并运行 Qwen 3.5 大模型
03-08 Qwen 本地部署 LLM
[自动] [JUEJIN]
2minsticky_note_2 AI Agent 工程师指南:深入解析 Zero-shot 与 Few-shot 核心概念
03-07 AI Agent LLM Zero-shot
[自动] [BLOGS_PODCASTS]
2minmic Gemini 3.1 Flash Lite:面向规模化智能构建的轻量级模型
03-05 Gemini Flash Lite 轻量级模型
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3.1 Flash Lite:面向大规模智能应用构建
03-04 Gemini Google Flash-Lite
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3.1 Flash-Lite:速度最快且性价比最高的3系模型
03-04 Gemini Google Flash-Lite
[自动] [HACKER_NEWS]
1minnewspaper Speculative Decoding:SSD加速大模型推理
03-04 Speculative Decoding SSD 模型推理
[自动] [HACKER_NEWS]
1minnewspaper 推测性推测解码:SSD 加速大模型推理
03-04 SSD 推测解码 模型推理
[自动] [HACKER_NEWS]
1minnewspaper 推测性推测解码:SSD加速大模型推理
03-04 SSD 推测解码 模型推理
[自动] [JUEJIN]
3minsticky_note_2 Ollama 本地部署开源大模型指南与代码实践
03-02 Ollama LLM 本地部署
[自动] [HACKER_NEWS]
1minnewspaper MCP服务器将Claude Code上下文消耗降低98%
03-01 MCP Claude Code 上下文优化
2026年二月 33 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
3minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic AWS LMI 容器更新:提升托管 LLM 性能并简化部署
02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
5minmic 利用 vLLM 在 SageMaker 与 Bedrock 上高效托管多 LoRA 模型
02-27 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]
4minmic AWS LMI 容器更新:提升托管 LLM 性能与部署效率
02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker 与 Bedrock 上利用 vLLM 部署多 LoRA 推理
02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]
3minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
5minmic 利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型
02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic 在 SageMaker 与 Bedrock 上利用 vLLM 实现多 LoRA 推理及内核优化
02-26 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker AI 与 Amazon Bedrock 上使用 vLLM 高效部署多 LoRA 模型
02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]
5minmic 在SageMaker AI与Bedrock上利用vLLM高效部署多LoRA及MoE模型
02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker AI 与 Bedrock 上使用 vLLM 高效服务多 LoRA 模型
02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]
5minmic 利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型
02-26 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker AI 与 Bedrock 上利用 vLLM 高效部署多 LoRA 模型
02-25 vLLM LoRA MoE
[自动] [BLOGS_PODCASTS]
2minmic Amazon Bedrock在亚太六地推Claude模型全球跨区域推理
02-25 Amazon Bedrock Claude Anthropic
[自动] [HACKER_NEWS]
1minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]
1minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]
1minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]
1minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-24 STT Whisper Moonshine
[自动] [BLOGS_PODCASTS]
2minmic Amazon Bedrock 新增中东区域支持 Anthropic Claude 模型推理
02-24 AWS Amazon Bedrock Anthropic
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入Hugging Face推动本地AI长期发展
02-24 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入HF以保障本地AI长期发展
02-23 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入HF,推动本地AI长期发展
02-23 GGML llama.cpp Hugging Face
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入HF以保障本地AI长期发展
02-22 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]
1minnewspaper 推理服务商如何证明未提供量化模型
02-21 模型推理 模型量化 零知识证明
[自动] [BLOGS_PODCASTS]
4minmic GGML与llama.cpp加入HF以推动本地AI长期发展
02-21 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]
1minnewspaper 利用注意力匹配加速 KV 缓存压缩
02-20 KV Cache 注意力机制 模型推理
[自动] [BLOGS_PODCASTS]
3minmic Qwen3.5-397B-A17B:最小Open-Opus级高效模型
02-19 Qwen3.5 MoE 稀疏模型
[自动] [ARXIV]
3minschool GENIUS:生成式流体智能评估套件
02-13 GENIUS 流体智力 多模态评估
[自动] [HACKER_NEWS]
5minnewspaper 在 Linux 上安装 Ollama 并部署 Gemma 3B 模型
02-07 Ollama Gemma LLM
[自动] [HACKER_NEWS]
5minnewspaper 对称感知泰勒近似实现恒定Token成本注意力机制
02-04 Attention机制 Taylor近似 Token成本
[自动] [HACKER_NEWS]
6minnewspaper iPhone 16 Pro Max 运行 MLX 大模型输出质量异常
02-02 MLX LLM Apple Silicon
2026年一月 1 篇
类型阅读条目
[自动] [ARXIV]
4minschool 突破极限!AI如何教会自己推理?🤯 边缘学习性的惊天秘密!🚀
01-27 SOAR 强化学习 元学习