目录
性能优化
条目:110
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 7min | newspaper
MCP服务器将Claude Code上下文消耗降低98% 03-01
MCP
Claude Code
上下文优化 |
2026年二月
97 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
构建生产级最近邻系统的工程实践与经验总结 02-28
向量检索
近似最近邻
ANN |
[自动]
[HACKER_NEWS] | 5min | newspaper
停止浪费上下文窗口:Claude Code 如何将 MCP 输出减少 98% 02-28
Claude
MCP
上下文窗口 |
[自动]
[HACKER_NEWS] | 5min | newspaper
停止浪费上下文窗口:Claude Code 如何将 MCP 输出缩减 98% 02-28
Claude
MCP
上下文窗口 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Rust 驱动的 RAG 文档分块工具:速度提升 40 倍且内存恒定 02-28
Rust
RAG
文档分块 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-28
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-28
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用闲置算时将大模型训练速度提升一倍 02-27
LLM
训练效率
算力优化 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
AWS LMI 容器更新:提升托管 LLM 性能并简化部署 02-27
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将大模型训练速度提高一倍且保持精度 02-27
LLM
训练加速
算力优化 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用 vLLM 在 SageMaker 与 Bedrock 上高效托管多 LoRA 模型 02-27
vLLM
LoRA
SageMaker |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS LMI 容器更新:提升托管 LLM 性能与部署效率 02-27
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将LLM训练速度提升一倍且保持精度 02-26
LLM
训练加速
算力优化 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-26
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将大模型训练速度提升一倍 02-26
LLM
训练加速
算力优化 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
AWS发布LMI容器更新:提升LLM托管性能并简化部署 02-26
AWS
LMI
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用闲置算力将大模型训练速度提升一倍的新方法 02-26
LLM
训练效率
算力优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
利用空闲计算时间将大模型训练速度提升一倍 02-26
LLM
模型训练
算力优化 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Meta 开源 RCCLX:优化 AMD 平台 GPU 通信加速 AI 训练 02-26
Meta
RCCLX
AMD |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用闲置算力将大模型训练速度提升一倍 02-26
LLM
模型训练
算力优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
通过 CLI 优化降低 MCP 运行成本 02-26
MCP
CLI
成本优化 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
Meta 开源 RCCLX:优化 AMD 平台 GPU 通信性能 02-26
Meta
RCCLX
AMD |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker AI 与 Bedrock 上使用 vLLM 高效服务多 LoRA 模型 02-26
vLLM
LoRA
MoE |
[自动]
[HACKER_NEWS] | 6min | newspaper
通过 CLI 优化降低 MCP 运行成本 02-26
MCP
CLI
成本优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
开源 LLM 推理引擎 ZSE:冷启动时间 3.9 秒 02-26
LLM
推理引擎
ZSE |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型 02-26
vLLM
LoRA
MoE |
[自动]
[HACKER_NEWS] | 5min | newspaper
开源LLM推理引擎ZSE:冷启动时间3.9秒 02-26
LLM
推理引擎
ZSE |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Meta 开源 RCCLX:优化 AMD GPU 通信并集成 Torchcomms 02-25
Meta
RCCLX
AMD |
[自动]
[BLOGS_PODCASTS] | 5min | mic
Meta 开源 RCCLX:优化 AMD 平台 GPU 通信 02-25
Meta
AMD
RCCLX |
[自动]
[BLOGS_PODCASTS] | 5min | mic
Meta 开源 RCCLX:优化 AMD GPU 通信并集成 Torchcomms 02-25
Meta
RCCLX
AMD |
[自动]
[HACKER_NEWS] | 5min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-25
STT
Whisper
Moonshine |
[自动]
[HACKER_NEWS] | 5min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-25
STT
Whisper
Moonshine |
[自动]
[BLOGS_PODCASTS] | 5min | mic
Meta 开源 RCCLX:优化 AMD GPU 通信并集成 Torchcomms 02-25
Meta
AMD
GPU |
[自动]
[HACKER_NEWS] | 5min | newspaper
Mercury 2:基于扩散模型的最快推理大语言模型 02-25
Mercury 2
扩散模型
推理加速 |
[自动]
[ARXIV] | 5min | school
DeepSpeed图像工作负载评测:视觉Transformer扩展性能 02-25
DeepSpeed
ViT
视觉Transformer |
[自动]
[HACKER_NEWS] | 5min | newspaper
Moonshine 开源 STT 模型:精度超越 WhisperLargev3 02-25
STT
Whisper
Moonshine |
[自动]
[JUEJIN] | 2min | sticky_note_2
oh-my-opencode-slim:体积缩减80%的AI编程精简版 02-24
AI编程
LLM
Agent |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[JUEJIN] | 2min | sticky_note_2
传统 Nginx 流量层难以适配 AI 服务,需重新设计 02-23
Nginx
AI 基础设施
流量层 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞提升大模型安全性与性能 02-22
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 7min | newspaper
通往普及AI之路:实现每秒1.7万Token推理 02-21
推理加速
Token生成
AI普及 |
[自动]
[HACKER_NEWS] | 5min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-21
推理加速
Token生成
性能优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
通向无处不在的AI之路:实现每秒1.7万tokens推理 02-21
推理加速
Token生成
AI部署 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 5min | newspaper
通往泛在AI之路:实现每秒1.7万tokens推理 02-20
推理加速
Token生成
泛在AI |
[自动]
[HACKER_NEWS] | 4min | newspaper
通往无处不在的AI:实现每秒1.7万tokens推理 02-20
LLM
推理加速
Token |
[自动]
[HACKER_NEWS] | 4min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用注意力匹配加速 KV 缓存压缩 02-20
KV Cache
注意力机制
模型推理 |
[自动]
[HACKER_NEWS] | 7min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-20
Gemini
Google
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 5min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-19
Gemini
Google
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 8min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-19
Gemini
Google
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen3.5-397B-A17B:最小Open-Opus级高效模型 02-19
Qwen3.5
MoE
稀疏模型 |
[自动]
[JUEJIN] | 3min | sticky_note_2
ZeroClaw:零开销全Rust自主AI助手与OpenClaw对比 02-18
Rust
AI助手
ZeroClaw |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Qwen3.5-397B-A17B:最小的高效Open-Opus级模型 02-18
Qwen3.5
模型压缩
性能优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM上下文学习机制与性能优化指南 02-18
LLM
上下文学习
ICL |
[自动]
[HACKER_NEWS] | 5min | newspaper
Claude Sonnet 4.6发布:兼顾性能与成本效率 02-18
Claude
Anthropic
模型发布 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Claude Sonnet 4.6发布:兼顾高性能与长文本 02-18
Claude
Sonnet 4.6
Anthropic |
[自动]
[HACKER_NEWS] | 5min | newspaper
Claude Sonnet 4.6 发布:兼顾性能与成本效益 02-18
Claude
Anthropic
模型发布 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Claude Sonnet 4.6 发布:兼顾高性能与长文本处理 02-17
Claude
Sonnet 4.6
Anthropic |
[自动]
[HACKER_NEWS] | 5min | newspaper
Andrej Karpathy 将 micrograd 移植至 C99,性能提升 4600 倍 02-17
Andrej Karpathy
micrograd
C99 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI发布GPT-5.3-Codex-Spark:首款实时编码模型,生成提速15倍 02-16
OpenAI
GPT-5.3
Codex |
[自动]
[HACKER_NEWS] | 5min | newspaper
LLM Agent 成本呈二次方增长:算力开销分析 02-16
LLM
Agent
成本分析 |
[自动]
[HACKER_NEWS] | 7min | newspaper
LLM 智能体成本呈二次方增长,复杂任务开销急剧上升 02-16
LLM
智能体
成本分析 |
[自动]
[HACKER_NEWS] | 5min | newspaper
LLM 智能体成本呈二次方增长,复杂任务开销急剧攀升 02-16
LLM
智能体
成本分析 |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种提升大模型推理速度的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[HACKER_NEWS] | 5min | newspaper
Zvec:轻量级进程内向量数据库 02-15
向量数据库
Zvec
轻量级 |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种提升大模型推理速度的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅头文件的 C 语言向量数据库库 02-14
C语言
向量数据库
头文件库 |
[自动]
[HACKER_NEWS] | 7min | newspaper
仅更换框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
模型评估 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon Bedrock 限流与服务可用性管理指南 02-13
Amazon Bedrock
限流
服务可用性 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅更换框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
框架对比 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Bedrock 限流与服务可用性管理指南 02-12
Amazon Bedrock
限流
错误处理 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon Bedrock限流与服务可用性管理指南 02-12
Amazon Bedrock
限流
错误处理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅替换调度框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon Bedrock 限流与服务可用性管理指南 02-12
Amazon Bedrock
限流
错误处理 |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅更换框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
框架对比 |
[自动]
[HACKER_NEWS] | 5min | newspaper
仅更换调度框架,一下午提升15个大模型代码能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon Bedrock 限流与服务可用性管理指南 02-12
Amazon Bedrock
限流
错误处理 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon Bedrock 限流与服务可用性管理指南 02-12
Amazon Bedrock
限流
错误处理 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Amazon Bedrock 限流与服务可用性管理指南 02-12
Amazon Bedrock
限流
错误处理 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Mastering Amazon Bedrock throttling and service availab 02-11
Amazon Bedrock
错误处理
节流限制 |
[自动]
[ARXIV] | 4min | school
ARO:面向大模型矩阵优化的新视角 02-10
矩阵优化
ARO
大模型 |
[自动]
[HACKER_NEWS] | 2min | newspaper
纯C语言实现Mistral Voxtral 4B语音模型CPU推理 02-10
C语言
Mistral
Voxtral 4B |
[自动]
[HACKER_NEWS] | 2min | newspaper
纯C语言实现Mistral Voxtral 4B语音模型CPU推理 02-10
C语言
Mistral
Voxtral |
[自动]
[HACKER_NEWS] | 7min | newspaper
Claude Opus 4.6 发布:性能与上下文窗口提升 02-05
Claude
Opus 4.6
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
从零编写优化张量编译器的技术实践 02-04
编译器
张量
LLVM |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen3-Coder-Next:下一代代码模型架构与性能升级 02-04
Qwen
代码模型
架构升级 |
[自动]
[HACKER_NEWS] | 7min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 8min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
FlashAttention-T:张量化注意力机制实现方案 02-04
FlashAttention
张量化
注意力机制 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-04
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
FlashAttention-T:张量化注意力机制优化方案 02-03
FlashAttention
注意力机制
张量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Nano-vLLM 技术解析:vLLM 风格推理引擎的运行机制 02-03
vLLM
推理引擎
Nano-vLLM |
[自动]
[HACKER_NEWS] | 6min | newspaper
Nano-vLLM 原理:vLLM 风格推理引擎的实现机制 02-03
vLLM
推理引擎
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
Nano-vLLM 原理剖析:vLLM 风格推理引擎的实现机制 02-02
vLLM
推理引擎
LLM |
[自动]
[HACKER_NEWS] | 6min | newspaper
Nano-vLLM 原理:解析 vLLM 风格推理引擎机制 02-02
vLLM
推理引擎
LLM |
2026年一月
12 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 5min | newspaper
AGENTS.md 架构在智能体评估中优于 Skills 架构 01-30
智能体
Agent
AGENTS.md |
[自动]
[ARXIV] | 3min | school
EWSJF:面向混合负载LLM推理的自适应调度器 01-30
LLM推理
调度器
vLLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
自旋锁的常见问题与使用陷阱分析 01-29
自旋锁
多线程
并发控制 |
[自动]
[HACKER_NEWS] | 4min | newspaper
手写Git!从零构建版本控制,硬核极客的极致浪漫 😎 01-27
Git
版本控制
从零构建 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
🚀Codex Agent循环全解!揭秘AI核心价值! 01-27
Codex
Agent
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
🚀 1个月!Claude Code助阵10万行TS到Rust的史诗级迁移🔥 01-27
Rust
TypeScript
Claude Code |
[自动]
[HACKER_NEWS] | 4min | newspaper
🚀 MapLibre Tile:现代高效的矢量瓦片格式,彻底改变地图渲染! 01-27
MapLibre
矢量瓦片
地图渲染 |
[自动]
[ARXIV] | 6min | school
🔥LLM序列标注新突破!揭秘高效策略,性能飙升! 01-27
LLM
序列标注
NLP |
[自动]
[GITHUB_TRENDING] | 8min | hub
🚀Ehviewer优化版来了!性能飙升+功能革新,看图神器必装! 01-26
Android
C++
JNI |
[自动]
[HACKER_NEWS] | 4min | newspaper
🚀 现代化矢量瓦片格式!MapLibre Tile:效率革命来袭! 01-26
MapLibre
矢量瓦片
地图渲染 |
[自动]
[HACKER_NEWS] | 4min | newspaper
✨无需重构!直接将应用迁移至Cloudflare Workers!🚀 01-26
Cloudflare
Workers
边缘计算 |
[自动]
[HACKER_NEWS] | 5min | newspaper
🚀 Zig内存布局深度解析:公式揭秘!🧠 01-25
Zig
内存布局
内存对齐 |
无匹配条目