目录
量化
条目:20
2026年三月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
面向硬件加速器的运行时可重构多精度量化乘法按位脉动阵列架构 03-01
硬件加速器
脉动阵列
量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Qwen3.5 122B/35B 本地跑出 Sonnet 4.5 性能 03-01
Qwen3.5
Sonnet 4.5
本地部署 |
2026年二月
17 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
面向硬件加速器的运行时可重构多精度量化乘法按位脉动阵列架构 02-28
硬件加速器
脉动阵列
量化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Qwen3.5 122B与35B本地部署性能对标Sonnet 4.5 02-28
Qwen3.5
Sonnet 4.5
本地部署 |
[自动]
[ARXIV] | 5min | school
FlashOptim:面向内存高效训练的优化器 02-28
FlashOptim
大模型训练
显存优化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Unsloth Dynamic 2.0 发布:支持 GGUF 格式 02-28
Unsloth
GGUF
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
Unsloth Dynamic 2.0 GGUFs 发布 02-28
Unsloth
GGUF
llama.cpp |
[自动]
[ARXIV] | 4min | school
面向硬件加速器的运行时可重构多精度量化乘法按位脉动阵列架构 02-27
硬件加速器
脉动阵列
量化 |
[自动]
[ARXIV] | 4min | school
SPQ:面向大语言模型压缩的集成技术 02-24
LLM
模型压缩
SPQ |
[自动]
[ARXIV] | 6min | school
SPQ:大语言模型压缩的集成技术 02-23
模型压缩
LLM
量化 |
[自动]
[HACKER_NEWS] | 8min | newspaper
单张RTX 3090利用NVMe直通运行Llama 3.1 70B 02-22
Llama 3.1
RTX 3090
NVMe |
[自动]
[HACKER_NEWS] | 5min | newspaper
zclaw:体积小于888 KB的个人AI助手,运行于ESP32 02-22
LLM
ESP32
嵌入式 |
[自动]
[HACKER_NEWS] | 4min | newspaper
zclaw:体积小于888 KB的个人AI助手,可运行于ESP32 02-21
zclaw
ESP32
嵌入式AI |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种提升大模型推理速度的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[HACKER_NEWS] | 5min | newspaper
两种提升大模型推理速度的技术方法 02-15
LLM
推理加速
KV Cache |
[自动]
[HACKER_NEWS] | 6min | newspaper
iPhone 16 Pro Max 运行 MLX 大模型输出质量异常 02-02
MLX
LLM
Apple Silicon |
[自动]
[HACKER_NEWS] | 5min | newspaper
iPhone 16 Pro Max 运行 MLX 大模型输出质量差 02-02
MLX
LLM
iPhone 16 |
[自动]
[HACKER_NEWS] | 5min | newspaper
iPhone 16 Pro Max 运行 MLX 大模型输出质量异常 02-02
MLX
LLM
iPhone 16 |
[自动]
[HACKER_NEWS] | 5min | newspaper
iPhone 16 Pro Max 运行 MLX 大模型输出质量异常 02-02
MLX
LLM
Apple Silicon |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 5min | newspaper
在8位摩托罗拉6809上运行深度卷积神经网络玩桌游 01-29
复古计算
深度学习
卷积神经网络 |
无匹配条目