terminal

AI Stack

rss_feed
SYS_STABLE
目录

性能优化

条目:110
2026年三月 1 篇
类型阅读条目
[自动] [HACKER_NEWS]
7minnewspaper MCP服务器将Claude Code上下文消耗降低98%
03-01 MCP Claude Code 上下文优化
2026年二月 97 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper 构建生产级最近邻系统的工程实践与经验总结
02-28 向量检索 近似最近邻 ANN
[自动] [HACKER_NEWS]
5minnewspaper 停止浪费上下文窗口:Claude Code 如何将 MCP 输出减少 98%
02-28 Claude MCP 上下文窗口
[自动] [HACKER_NEWS]
5minnewspaper 停止浪费上下文窗口:Claude Code 如何将 MCP 输出缩减 98%
02-28 Claude MCP 上下文窗口
[自动] [HACKER_NEWS]
5minnewspaper Rust 驱动的 RAG 文档分块工具:速度提升 40 倍且内存恒定
02-28 Rust RAG 文档分块
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-28 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
3minmic 利用闲置算时将大模型训练速度提升一倍
02-27 LLM 训练效率 算力优化
[自动] [BLOGS_PODCASTS]
5minmic AWS LMI 容器更新:提升托管 LLM 性能并简化部署
02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将大模型训练速度提高一倍且保持精度
02-27 LLM 训练加速 算力优化
[自动] [BLOGS_PODCASTS]
5minmic 利用 vLLM 在 SageMaker 与 Bedrock 上高效托管多 LoRA 模型
02-27 vLLM LoRA SageMaker
[自动] [BLOGS_PODCASTS]
4minmic AWS LMI 容器更新:提升托管 LLM 性能与部署效率
02-27 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将LLM训练速度提升一倍且保持精度
02-26 LLM 训练加速 算力优化
[自动] [BLOGS_PODCASTS]
3minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将大模型训练速度提升一倍
02-26 LLM 训练加速 算力优化
[自动] [BLOGS_PODCASTS]
4minmic AWS发布LMI容器更新:提升LLM托管性能并简化部署
02-26 AWS LMI LLM
[自动] [BLOGS_PODCASTS]
2minmic 利用闲置算力将大模型训练速度提升一倍的新方法
02-26 LLM 训练效率 算力优化
[自动] [BLOGS_PODCASTS]
2minmic 利用空闲计算时间将大模型训练速度提升一倍
02-26 LLM 模型训练 算力优化
[自动] [BLOGS_PODCASTS]
4minmic Meta 开源 RCCLX:优化 AMD 平台 GPU 通信加速 AI 训练
02-26 Meta RCCLX AMD
[自动] [BLOGS_PODCASTS]
3minmic 利用闲置算力将大模型训练速度提升一倍
02-26 LLM 模型训练 算力优化
[自动] [HACKER_NEWS]
5minnewspaper 通过 CLI 优化降低 MCP 运行成本
02-26 MCP CLI 成本优化
[自动] [BLOGS_PODCASTS]
5minmic Meta 开源 RCCLX:优化 AMD 平台 GPU 通信性能
02-26 Meta RCCLX AMD
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker AI 与 Bedrock 上使用 vLLM 高效服务多 LoRA 模型
02-26 vLLM LoRA MoE
[自动] [HACKER_NEWS]
6minnewspaper 通过 CLI 优化降低 MCP 运行成本
02-26 MCP CLI 成本优化
[自动] [HACKER_NEWS]
5minnewspaper 开源 LLM 推理引擎 ZSE:冷启动时间 3.9 秒
02-26 LLM 推理引擎 ZSE
[自动] [BLOGS_PODCASTS]
5minmic 利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型
02-26 vLLM LoRA MoE
[自动] [HACKER_NEWS]
5minnewspaper 开源LLM推理引擎ZSE:冷启动时间3.9秒
02-26 LLM 推理引擎 ZSE
[自动] [BLOGS_PODCASTS]
3minmic Meta 开源 RCCLX:优化 AMD GPU 通信并集成 Torchcomms
02-25 Meta RCCLX AMD
[自动] [BLOGS_PODCASTS]
5minmic Meta 开源 RCCLX:优化 AMD 平台 GPU 通信
02-25 Meta AMD RCCLX
[自动] [BLOGS_PODCASTS]
5minmic Meta 开源 RCCLX:优化 AMD GPU 通信并集成 Torchcomms
02-25 Meta RCCLX AMD
[自动] [HACKER_NEWS]
5minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-25 STT Whisper Moonshine
[自动] [HACKER_NEWS]
5minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-25 STT Whisper Moonshine
[自动] [BLOGS_PODCASTS]
5minmic Meta 开源 RCCLX:优化 AMD GPU 通信并集成 Torchcomms
02-25 Meta AMD GPU
[自动] [HACKER_NEWS]
5minnewspaper Mercury 2:基于扩散模型的最快推理大语言模型
02-25 Mercury 2 扩散模型 推理加速
[自动] [ARXIV]
5minschool DeepSpeed图像工作负载评测:视觉Transformer扩展性能
02-25 DeepSpeed ViT 视觉Transformer
[自动] [HACKER_NEWS]
5minnewspaper Moonshine 开源 STT 模型:精度超越 WhisperLargev3
02-25 STT Whisper Moonshine
[自动] [JUEJIN]
2minsticky_note_2 oh-my-opencode-slim:体积缩减80%的AI编程精简版
02-24 AI编程 LLM Agent
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [JUEJIN]
2minsticky_note_2 传统 Nginx 流量层难以适配 AI 服务,需重新设计
02-23 Nginx AI 基础设施 流量层
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞提升大模型安全性与性能
02-22 MIT LLM 模型安全
[自动] [HACKER_NEWS]
7minnewspaper 通往普及AI之路:实现每秒1.7万Token推理
02-21 推理加速 Token生成 AI普及
[自动] [HACKER_NEWS]
5minnewspaper 通往普及AI之路:实现每秒1.7万tokens推理
02-21 推理加速 Token生成 性能优化
[自动] [HACKER_NEWS]
4minnewspaper 通向无处不在的AI之路:实现每秒1.7万tokens推理
02-21 推理加速 Token生成 AI部署
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [HACKER_NEWS]
5minnewspaper 通往泛在AI之路:实现每秒1.7万tokens推理
02-20 推理加速 Token生成 泛在AI
[自动] [HACKER_NEWS]
4minnewspaper 通往无处不在的AI:实现每秒1.7万tokens推理
02-20 LLM 推理加速 Token
[自动] [HACKER_NEWS]
4minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
5minnewspaper 利用注意力匹配加速 KV 缓存压缩
02-20 KV Cache 注意力机制 模型推理
[自动] [HACKER_NEWS]
7minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-20 Gemini Google LLM
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [HACKER_NEWS]
5minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-19 Gemini Google LLM
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-19 MIT LLM 模型安全
[自动] [HACKER_NEWS]
8minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-19 Gemini Google LLM
[自动] [BLOGS_PODCASTS]
3minmic Qwen3.5-397B-A17B:最小Open-Opus级高效模型
02-19 Qwen3.5 MoE 稀疏模型
[自动] [JUEJIN]
3minsticky_note_2 ZeroClaw:零开销全Rust自主AI助手与OpenClaw对比
02-18 Rust AI助手 ZeroClaw
[自动] [BLOGS_PODCASTS]
2minmic Qwen3.5-397B-A17B:最小的高效Open-Opus级模型
02-18 Qwen3.5 模型压缩 性能优化
[自动] [HACKER_NEWS]
4minnewspaper LLM上下文学习机制与性能优化指南
02-18 LLM 上下文学习 ICL
[自动] [HACKER_NEWS]
5minnewspaper Claude Sonnet 4.6发布:兼顾性能与成本效率
02-18 Claude Anthropic 模型发布
[自动] [HACKER_NEWS]
5minnewspaper Claude Sonnet 4.6发布:兼顾高性能与长文本
02-18 Claude Sonnet 4.6 Anthropic
[自动] [HACKER_NEWS]
5minnewspaper Claude Sonnet 4.6 发布:兼顾性能与成本效益
02-18 Claude Anthropic 模型发布
[自动] [HACKER_NEWS]
5minnewspaper Claude Sonnet 4.6 发布:兼顾高性能与长文本处理
02-17 Claude Sonnet 4.6 Anthropic
[自动] [HACKER_NEWS]
5minnewspaper Andrej Karpathy 将 micrograd 移植至 C99,性能提升 4600 倍
02-17 Andrej Karpathy micrograd C99
[自动] [BLOGS_PODCASTS]
3minmic OpenAI发布GPT-5.3-Codex-Spark:首款实时编码模型,生成提速15倍
02-16 OpenAI GPT-5.3 Codex
[自动] [HACKER_NEWS]
5minnewspaper LLM Agent 成本呈二次方增长:算力开销分析
02-16 LLM Agent 成本分析
[自动] [HACKER_NEWS]
7minnewspaper LLM 智能体成本呈二次方增长,复杂任务开销急剧上升
02-16 LLM 智能体 成本分析
[自动] [HACKER_NEWS]
5minnewspaper LLM 智能体成本呈二次方增长,复杂任务开销急剧攀升
02-16 LLM 智能体 成本分析
[自动] [HACKER_NEWS]
5minnewspaper 两种提升大模型推理速度的技术方法
02-15 LLM 推理加速 KV Cache
[自动] [HACKER_NEWS]
5minnewspaper Zvec:轻量级进程内向量数据库
02-15 向量数据库 Zvec 轻量级
[自动] [HACKER_NEWS]
5minnewspaper 两种提升大模型推理速度的技术方法
02-15 LLM 推理加速 KV Cache
[自动] [HACKER_NEWS]
4minnewspaper 仅头文件的 C 语言向量数据库库
02-14 C语言 向量数据库 头文件库
[自动] [HACKER_NEWS]
7minnewspaper 仅更换框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 模型评估
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock 限流与服务可用性管理指南
02-13 Amazon Bedrock 限流 服务可用性
[自动] [HACKER_NEWS]
4minnewspaper 仅更换框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 框架对比
[自动] [BLOGS_PODCASTS]
3minmic Amazon Bedrock 限流与服务可用性管理指南
02-12 Amazon Bedrock 限流 错误处理
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock限流与服务可用性管理指南
02-12 Amazon Bedrock 限流 错误处理
[自动] [HACKER_NEWS]
4minnewspaper 仅替换调度框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock 限流与服务可用性管理指南
02-12 Amazon Bedrock 限流 错误处理
[自动] [HACKER_NEWS]
6minnewspaper 仅更换框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 框架对比
[自动] [HACKER_NEWS]
5minnewspaper 仅更换调度框架,一下午提升15个大模型代码能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock 限流与服务可用性管理指南
02-12 Amazon Bedrock 限流 错误处理
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock 限流与服务可用性管理指南
02-12 Amazon Bedrock 限流 错误处理
[自动] [BLOGS_PODCASTS]
4minmic Amazon Bedrock 限流与服务可用性管理指南
02-12 Amazon Bedrock 限流 错误处理
[自动] [BLOGS_PODCASTS]
3minmic Mastering Amazon Bedrock throttling and service availab
02-11 Amazon Bedrock 错误处理 节流限制
[自动] [ARXIV]
4minschool ARO:面向大模型矩阵优化的新视角
02-10 矩阵优化 ARO 大模型
[自动] [HACKER_NEWS]
2minnewspaper 纯C语言实现Mistral Voxtral 4B语音模型CPU推理
02-10 C语言 Mistral Voxtral 4B
[自动] [HACKER_NEWS]
2minnewspaper 纯C语言实现Mistral Voxtral 4B语音模型CPU推理
02-10 C语言 Mistral Voxtral
[自动] [HACKER_NEWS]
7minnewspaper Claude Opus 4.6 发布:性能与上下文窗口提升
02-05 Claude Opus 4.6 LLM
[自动] [HACKER_NEWS]
5minnewspaper 从零编写优化张量编译器的技术实践
02-04 编译器 张量 LLVM
[自动] [HACKER_NEWS]
4minnewspaper Qwen3-Coder-Next:下一代代码模型架构与性能升级
02-04 Qwen 代码模型 架构升级
[自动] [HACKER_NEWS]
7minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
8minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
5minnewspaper FlashAttention-T:张量化注意力机制实现方案
02-04 FlashAttention 张量化 注意力机制
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-04 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
6minnewspaper FlashAttention-T:张量化注意力机制优化方案
02-03 FlashAttention 注意力机制 张量化
[自动] [HACKER_NEWS]
5minnewspaper Nano-vLLM 技术解析:vLLM 风格推理引擎的运行机制
02-03 vLLM 推理引擎 Nano-vLLM
[自动] [HACKER_NEWS]
6minnewspaper Nano-vLLM 原理:vLLM 风格推理引擎的实现机制
02-03 vLLM 推理引擎 LLM
[自动] [HACKER_NEWS]
5minnewspaper Nano-vLLM 原理剖析:vLLM 风格推理引擎的实现机制
02-02 vLLM 推理引擎 LLM
[自动] [HACKER_NEWS]
6minnewspaper Nano-vLLM 原理:解析 vLLM 风格推理引擎机制
02-02 vLLM 推理引擎 LLM
2026年一月 12 篇
类型阅读条目
[自动] [HACKER_NEWS]
5minnewspaper AGENTS.md 架构在智能体评估中优于 Skills 架构
01-30 智能体 Agent AGENTS.md
[自动] [ARXIV]
3minschool EWSJF:面向混合负载LLM推理的自适应调度器
01-30 LLM推理 调度器 vLLM
[自动] [HACKER_NEWS]
5minnewspaper 自旋锁的常见问题与使用陷阱分析
01-29 自旋锁 多线程 并发控制
[自动] [HACKER_NEWS]
4minnewspaper 手写Git!从零构建版本控制,硬核极客的极致浪漫 😎
01-27 Git 版本控制 从零构建
[自动] [BLOGS_PODCASTS]
4minmic 🚀Codex Agent循环全解!揭秘AI核心价值!
01-27 Codex Agent LLM
[自动] [HACKER_NEWS]
5minnewspaper 🚀 1个月!Claude Code助阵10万行TS到Rust的史诗级迁移🔥
01-27 Rust TypeScript Claude Code
[自动] [HACKER_NEWS]
4minnewspaper 🚀 MapLibre Tile:现代高效的矢量瓦片格式,彻底改变地图渲染!
01-27 MapLibre 矢量瓦片 地图渲染
[自动] [ARXIV]
6minschool 🔥LLM序列标注新突破!揭秘高效策略,性能飙升!
01-27 LLM 序列标注 NLP
[自动] [GITHUB_TRENDING]
8minhub 🚀Ehviewer优化版来了!性能飙升+功能革新,看图神器必装!
01-26 Android C++ JNI
[自动] [HACKER_NEWS]
4minnewspaper 🚀 现代化矢量瓦片格式!MapLibre Tile:效率革命来袭!
01-26 MapLibre 矢量瓦片 地图渲染
[自动] [HACKER_NEWS]
4minnewspaper ✨无需重构!直接将应用迁移至Cloudflare Workers!🚀
01-26 Cloudflare Workers 边缘计算
[自动] [HACKER_NEWS]
5minnewspaper 🚀 Zig内存布局深度解析:公式揭秘!🧠
01-25 Zig 内存布局 内存对齐