2026-06-11 google
Gemma 4 的 QAT 权重:端侧推理的瓶颈从「能不能跑」换成了「省不省电」
Google 给 Gemma 4 放出量化感知训练(QAT)的权重,把 E2B 的内存占用压到 1GB,能在手机和消费级显卡上跑。真正的转折不是「能跑了」,而是它把矛盾从「装不装得下」推到了功耗、隐私边界和质量损失到底有多大。
阅读全文High-signal frontier AI context tagged with quantization.
Google 给 Gemma 4 放出量化感知训练(QAT)的权重,把 E2B 的内存占用压到 1GB,能在手机和消费级显卡上跑。真正的转折不是「能跑了」,而是它把矛盾从「装不装得下」推到了功耗、隐私边界和质量损失到底有多大。
阅读全文