terminal

AI Stack

rss_feed
SYS_STABLE
目录

硬件加速

条目:20
2026年三月 8 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 英伟达发布Vera CPU:专用于代理式AI计算
03-16 英伟达 Vera CPU 代理式 AI
[自动] [ARXIV]
5minschool MXNorm:复用MXFP块缩放实现高效张量归一化
03-16 MXNorm MXFP 低精度计算
[自动] [HACKER_NEWS]
1minnewspaper 在TPU上移植Flash Attention的实践与挑战
03-13 TPU Flash Attention 硬件加速
[自动] [HACKER_NEWS]
1minnewspaper 在TPU上移植Flash Attention的工程实践与挑战
03-12 TPU Flash Attention LLM
[自动] [HACKER_NEWS]
1minnewspaper RunAnywhere:基于 Apple Silicon 的 AI 推理加速方案
03-11 RunAnywhere Apple Silicon AI 推理
[自动] [HACKER_NEWS]
1minnewspaper RunAnywhere:在 Apple Silicon 上实现更快的 AI 推理
03-10 RunAnywhere Apple Silicon AI 推理
[自动] [HACKER_NEWS]
1minnewspaper Talos:深度卷积神经网络硬件加速器
03-04 硬件加速 CNN 深度学习
[自动] [HACKER_NEWS]
1minnewspaper M4 神经引擎逆向工程解析:架构与指令集
03-03 Apple Silicon M4 Neural Engine
2026年二月 12 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic GGML与llama.cpp加入HF以保障本地AI长期发展
02-23 GGML llama.cpp Hugging Face
[自动] [HACKER_NEWS]
3minnewspaper Taalas 如何将大语言模型直接打印至芯片
02-22 Taalas LLM 芯片
[自动] [HACKER_NEWS]
1minnewspaper Taalas 如何将大语言模型“打印”至芯片
02-22 Taalas 芯片 ASIC
[自动] [HACKER_NEWS]
1minnewspaper 单张RTX 3090利用NVMe直连运行Llama 3.1 70B
02-22 Llama 3.1 大模型推理 GPU 显存优化
[自动] [HACKER_NEWS]
1minnewspaper Taalas技术解析:如何将大模型直接打印至芯片
02-22 Taalas 芯片 LLM
[自动] [HACKER_NEWS]
1minnewspaper 单张RTX 3090利用NVMe直通运行Llama 3.1 70B
02-22 Llama 3.1 RTX 3090 NVMe
[自动] [HACKER_NEWS]
1minnewspaper Taalas 如何将大语言模型直接打印至芯片
02-22 Taalas LLM ASIC
[自动] [HACKER_NEWS]
1minnewspaper 通往普及AI之路:实现每秒1.7万tokens推理
02-21 推理加速 Token生成 性能优化
[自动] [HACKER_NEWS]
1minnewspaper 通向无处不在的AI之路:实现每秒1.7万tokens推理
02-21 推理加速 Token生成 AI部署
[自动] [HACKER_NEWS]
1minnewspaper 迈向通用AI:17k tokens/sec的推理性能路径
02-20 推理性能 Token生成 通用AI
[自动] [HACKER_NEWS]
1minnewspaper 通往普及AI之路:实现每秒1.7万tokens推理
02-20 推理加速 高性能计算 Token吞吐
[自动] [HACKER_NEWS]
4minnewspaper RynnBrain:基于神经形态计算的类脑加速系统
02-15 神经形态计算 类脑计算 硬件加速