目录
硬件加速
条目:20
2026年三月
8 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
英伟达发布Vera CPU:专用于代理式AI计算 03-16
英伟达
Vera CPU
代理式 AI |
[自动]
[ARXIV] | 5min | school
MXNorm:复用MXFP块缩放实现高效张量归一化 03-16
MXNorm
MXFP
低精度计算 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在TPU上移植Flash Attention的实践与挑战 03-13
TPU
Flash Attention
硬件加速 |
[自动]
[HACKER_NEWS] | 1min | newspaper
在TPU上移植Flash Attention的工程实践与挑战 03-12
TPU
Flash Attention
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
RunAnywhere:基于 Apple Silicon 的 AI 推理加速方案 03-11
RunAnywhere
Apple Silicon
AI 推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
RunAnywhere:在 Apple Silicon 上实现更快的 AI 推理 03-10
RunAnywhere
Apple Silicon
AI 推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Talos:深度卷积神经网络硬件加速器 03-04
硬件加速
CNN
深度学习 |
[自动]
[HACKER_NEWS] | 1min | newspaper
M4 神经引擎逆向工程解析:架构与指令集 03-03
Apple Silicon
M4
Neural Engine |
2026年二月
12 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
GGML与llama.cpp加入HF以保障本地AI长期发展 02-23
GGML
llama.cpp
Hugging Face |
[自动]
[HACKER_NEWS] | 3min | newspaper
Taalas 如何将大语言模型直接打印至芯片 02-22
Taalas
LLM
芯片 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Taalas 如何将大语言模型“打印”至芯片 02-22
Taalas
芯片
ASIC |
[自动]
[HACKER_NEWS] | 1min | newspaper
单张RTX 3090利用NVMe直连运行Llama 3.1 70B 02-22
Llama 3.1
大模型推理
GPU 显存优化 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Taalas技术解析:如何将大模型直接打印至芯片 02-22
Taalas
芯片
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
单张RTX 3090利用NVMe直通运行Llama 3.1 70B 02-22
Llama 3.1
RTX 3090
NVMe |
[自动]
[HACKER_NEWS] | 1min | newspaper
Taalas 如何将大语言模型直接打印至芯片 02-22
Taalas
LLM
ASIC |
[自动]
[HACKER_NEWS] | 1min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-21
推理加速
Token生成
性能优化 |
[自动]
[HACKER_NEWS] | 1min | newspaper
通向无处不在的AI之路:实现每秒1.7万tokens推理 02-21
推理加速
Token生成
AI部署 |
[自动]
[HACKER_NEWS] | 1min | newspaper
迈向通用AI:17k tokens/sec的推理性能路径 02-20
推理性能
Token生成
通用AI |
[自动]
[HACKER_NEWS] | 1min | newspaper
通往普及AI之路:实现每秒1.7万tokens推理 02-20
推理加速
高性能计算
Token吞吐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
RynnBrain:基于神经形态计算的类脑加速系统 02-15
神经形态计算
类脑计算
硬件加速 |
无匹配条目