谷歌TurboQuant:3bit量化KV缓存无精度损失,推理最高快8倍
据 1M AI News 监测,谷歌研究院发布量化压缩算法 TurboQuant,可将大语言模型的 KV 缓存压缩至 3 bit,内存占用缩减至少 6 倍,无需训练或微调,不损失模型精度。4 bit 模式下,在英伟达 H100 GPU 上计算注意力的速度较 32 bit 未量化基线提升最高 8 倍。研究团队在 LongBench、Needle In A Haystack、ZeroSCROLLS 等长上下文基准上用 Gemma 和 Mistral 模型验证,TurboQuant 在所有测试中均达到最优表现。该算法由两个子算法组成:PolarQuant 通过极坐标变换消除传统量化方法的内存开销,QJL 仅用 1 bit 校正残余误差。该研究由谷歌研究院 Amir Zandieh 和副总裁兼 Google Fellow Vahab Mirrokni 主导,与韩国 KAIST 和纽约大学合作完成,将在 ICLR 2026 上发表。谷歌表示该技术的主要应用之一是解决 Gemini 等模型的 KV 缓存瓶颈。
热门快讯
1
Conflux:已修复一个操作码相关漏洞,此次安全事件未导致用户资金损失
2025-03-25
2
Upbit 正式支持 USDT 代币在 Aptos 主网充提
2025-06-18
3
美国上诉法院裁定,在上诉程序进行期间,特朗普的关税措施可能仍将继续生效
2025-06-11
4
USD1即将于Aptos网络发行
2025-10-01
5
胜利证券陈辰:香港是稳定币发展的政策缓冲区
2025-08-06
6
知情人士:MetaMask 或将本周公布 mUSD 稳定币计划
2025-08-14
