目录
模型推理
条目:51
2026年三月
17 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
Introducing GPT-5.4 mini and nano 03-18
GPT-5.4
OpenAI
小模型 |
[自动]
[ARXIV] | 3min | school
Reasoning Theater:解耦模型信念与思维链 03-09
CoT
模型推理
思维链 |
[自动]
[ARXIV] | 3min | school
利用大模型参数化知识实现无检索的事实核查 03-08
事实核查
无检索
参数化知识 |
[自动]
[ARXIV] | 3min | school
Reasoning Theater:解耦模型信念与思维链 03-08
思维链
CoT
模型推理 |
[自动]
[HACKER_NEWS] | 5min | newspaper
本地部署 Qwen 3.5 大模型的方法与流程 03-08
Qwen
本地部署
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
如何在本地部署运行 Qwen 3.5 大模型 03-08
Qwen
本地部署
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
如何在本地运行 Qwen 3.5 模型 03-08
Qwen
本地部署
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
如何在本地部署并运行 Qwen 3.5 大模型 03-08
Qwen
本地部署
LLM |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI Agent 工程师指南:深入解析 Zero-shot 与 Few-shot 核心概念 03-07
AI Agent
LLM
Zero-shot |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini 3.1 Flash Lite:面向规模化智能构建的轻量级模型 03-05
Gemini
Flash Lite
轻量级模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3.1 Flash Lite:面向大规模智能应用构建 03-04
Gemini
Google
Flash-Lite |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3.1 Flash-Lite:速度最快且性价比最高的3系模型 03-04
Gemini
Google
Flash-Lite |
[自动]
[HACKER_NEWS] | 1min | newspaper
Speculative Decoding:SSD加速大模型推理 03-04
Speculative Decoding
SSD
模型推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
推测性推测解码:SSD 加速大模型推理 03-04
SSD
推测解码
模型推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
推测性推测解码:SSD加速大模型推理 03-04
SSD
推测解码
模型推理 |
[自动]
[JUEJIN] | 3min | sticky_note_2
Ollama 本地部署开源大模型指南与代码实践 03-02
Ollama
LLM
本地部署 |
[自动]
[HACKER_NEWS] | 1min | newspaper
MCP服务器将Claude Code上下文消耗降低98% 03-01
MCP
Claude Code
上下文优化 |
2026年二月
33 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-28
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-28
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS LMI 容器更新:提升托管 LLM 性能并简化部署 02-27
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用 vLLM 在 SageMaker 与 Bedrock 上高效托管多 LoRA 模型 02-27
vLLM
LoRA
SageMaker |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS LMI 容器更新:提升托管 LLM 性能与部署效率 02-27
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker 与 Bedrock 上利用 vLLM 部署多 LoRA 推理 02-26
vLLM
LoRA
SageMaker |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-26
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型 02-26
vLLM
LoRA
SageMaker |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-26
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 SageMaker 与 Bedrock 上利用 vLLM 实现多 LoRA 推理及内核优化 02-26
vLLM
LoRA
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker AI 与 Amazon Bedrock 上使用 vLLM 高效部署多 LoRA 模型 02-26
vLLM
LoRA
MoE |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在SageMaker AI与Bedrock上利用vLLM高效部署多LoRA及MoE模型 02-26
vLLM
LoRA
MoE |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker AI 与 Bedrock 上使用 vLLM 高效服务多 LoRA 模型 02-26
vLLM
LoRA
MoE |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型 02-26
vLLM
LoRA
MoE |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker AI 与 Bedrock 上利用 vLLM 高效部署多 LoRA 模型 02-25
vLLM
LoRA
MoE |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Bedrock在亚太六地推Claude模型全球跨区域推理 02-25
Amazon Bedrock
Claude
Anthropic |
[自动]
[HACKER_NEWS] | 1min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-25
STT
Whisper
Moonshine |
[自动]
[HACKER_NEWS] | 1min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-25
STT
Whisper
Moonshine |
[自动]
[HACKER_NEWS] | 1min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-25
STT
Whisper
Moonshine |
[自动]
[HACKER_NEWS] | 1min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-24
STT
Whisper
Moonshine |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Bedrock 新增中东区域支持 Anthropic Claude 模型推理 02-24
AWS
Amazon Bedrock
Anthropic |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GGML与llama.cpp加入Hugging Face推动本地AI长期发展 02-24
GGML
llama.cpp
Hugging Face |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GGML与llama.cpp加入HF以保障本地AI长期发展 02-23
GGML
llama.cpp
Hugging Face |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GGML与llama.cpp加入HF,推动本地AI长期发展 02-23
GGML
llama.cpp
Hugging Face |
[自动]
[BLOGS_PODCASTS] | 3min | mic
GGML与llama.cpp加入HF以保障本地AI长期发展 02-22
GGML
llama.cpp
Hugging Face |
[自动]
[HACKER_NEWS] | 1min | newspaper
推理服务商如何证明未提供量化模型 02-21
模型推理
模型量化
零知识证明 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
GGML与llama.cpp加入HF以推动本地AI长期发展 02-21
GGML
llama.cpp
Hugging Face |
[自动]
[HACKER_NEWS] | 1min | newspaper
利用注意力匹配加速 KV 缓存压缩 02-20
KV Cache
注意力机制
模型推理 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen3.5-397B-A17B:最小Open-Opus级高效模型 02-19
Qwen3.5
MoE
稀疏模型 |
[自动]
[ARXIV] | 3min | school
GENIUS:生成式流体智能评估套件 02-13
GENIUS
流体智力
多模态评估 |
[自动]
[HACKER_NEWS] | 5min | newspaper
在 Linux 上安装 Ollama 并部署 Gemma 3B 模型 02-07
Ollama
Gemma
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
对称感知泰勒近似实现恒定Token成本注意力机制 02-04
Attention机制
Taylor近似
Token成本 |
[自动]
[HACKER_NEWS] | 6min | newspaper
iPhone 16 Pro Max 运行 MLX 大模型输出质量异常 02-02
MLX
LLM
Apple Silicon |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
突破极限!AI如何教会自己推理?🤯 边缘学习性的惊天秘密!🚀 01-27
SOAR
强化学习
元学习 |
无匹配条目