目录
延迟优化
条目:10
2026年五月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova Sonic语音智能体架构设计与工具集成实践 05-19
语音智能体
NovaSonic
多智能体 |
2026年四月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
Nova模型蒸馏优化视频搜索延迟成本 04-17
模型蒸馏
Amazon Nova
Amazon Bedrock |
[自动]
[ARXIV] | 2min | school
发展代理多模态模型的元认知工具使用能力 04-11
多模态代理
工具调用优化
元认知 |
2026年三月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
超越vLLM性能的自研推理栈技术解析 03-11
推理优化
vLLM
性能调优 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Speculative Decoding:大模型推理加速的投机解码技术 03-04
Speculative Decoding
SSD
推理加速 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Speculative Decoding:SSD加速大模型推理 03-04
Speculative Decoding
SSD
模型推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
推测性推测解码:SSD 加速大模型推理 03-04
SSD
推测解码
模型推理 |
2026年二月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
Step 3.5 Flash:速度足以思考,可靠性足以行动 02-19
Google
Gemini
Flash |
[自动]
[HACKER_NEWS] | 1min | newspaper
Step 3.5 Flash:快到能思考,稳到可执行 02-19
Step 3.5 Flash
LLM
推理模型 |
[自动]
[ARXIV] | 4min | school
异步验证语义缓存技术优化分层大模型架构 02-16
语义缓存
Krites
LLM |
无匹配条目