
梦晨 发自 凹非寺大庆钢绞线厂
量子位 | 公众号 QbitAI学术会议ICLR,果然和好意思光和西部数据大跌扯上联系了?
两存储芯片巨头股价大跌,莫得财报暴雷,莫得供应链断裂,仅仅谷歌展示了篇行将在ICLR 2026崇敬亮相的论文。
谷歌研究院出TurboQuant压缩算法,把AI理进程中吃内存的KV cache压缩至少6倍,精度亏本。
阛阓的解读简便苛刻,长高下文AI理以后不需要那么多内存了,利空内存。
网友纷纷暗意,这未便是好意思剧《硅谷》里的Pied Paper?
Pied Piper是2014年开播的HBO经典好意思剧《硅谷》里的造谣创业公司,中枢手艺便是种“近乎损的限压缩算法”。
2026年,雷同的算法在实际宇宙果然成真了。
KVCache量化到3 bit措施路TurboQuant为什么焦躁大庆钢绞线厂,先得领会它处理的是什么问题。
AI大模子理时处理过的信息会临时存在KV Cache,便后续快速调用,毋庸每次重新算起。
问题是跟着高下文窗口越来越长,内存耗尽急剧延迟。KV cache正在成为AI理的中枢瓶颈之。
传统的处梦想路是向量量化,把精度数据压成低精度暗意。
但窘态的是,大部重量化法自己也需要存储稀零的“量化常数”,每个数字要多占1到2个bit。
TurboQuant用两个蜕变把这个稀零支拨干到了。
PolarQuant(坐标量化):
毋庸传统的X、Y、Z坐标神态数据,转而用坐标”距离+角度”。
谷歌团队发现,调度后角度的散播异常集会且可斟酌,根底不需要稀零存储归化常数。
就像把“往东走3个路口,往北走4个路口”压缩成”朝37度向走5个路口”。
信息量不变,神态紧凑,还省却了坐标系自己的支拨。
QJL(量化JL变换):
把维数据投影后压缩成+1或-1的象征位,不需要稀零内存。TurboQuant用它来摒弃PolarQuant压缩后残留的微弱舛讹。
两者组后PolarQuant先用大部分bit容量捕捉数据的主要信息,QJL再用1个bit作念残差修正。
终终了3-bit量化,钢绞线厂家需任何历练或微调,精度亏本。
8倍加快,Benchmark全线拉满谷歌团队在Gemma和Mistral等开源模子上,跑了主流长高下文基准测试,隐私问答、代码生成、撮要等多种任务。
在“大海捞针”任务上,TurboQuant在通盘测试中拿下分数,同期KV cache内存占用减弱了至少6倍。
PolarQuant单使用,精度也险些损。
速率普及相同权贵。在英伟达H100 GPU上,4-bit TurboQuant策画提防力分数的速率,比32-bit未量化版块快了8倍。
不仅仅省内存,还快了。
在向量搜索域,TurboQuant相同越了现存量化法的调回率,况兼不需要针对具体数据集作念调,也不依赖低的大码本。
手机号码:13302071130AI内存的DeepSeek时候?
Cloudflare CEO评价“这是谷歌的DeepSeek时候”。
他合计DeepSeek施展了用少的资源也能训出顶模子。
TurboQuant的向雷同,用少的内存,也能跑相同质料的理。
谷歌暗意,TurboQuant除了不错用在Gemini等大模子上,同期还能大幅普及语义搜索的率,让谷歌别的万亿向量索引查询快、资本低。
不外TurboQuant当今还仅仅个实验室抵制,尚未大鸿沟部署。
要道的是,它只处理理阶段的内存问题。而AI历练措施不受影响。
论文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/参考贯串:
[1]https://x.com/eastdakota/status/2036827179150168182?s=20相关词条:铝皮保温 隔热条设备 钢绞线厂家玻璃棉 泡沫板橡塑板专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
Powered by 海南钢绞线_天津瑞通预应力钢绞线 RSS地图 HTML地图
Copyright Powered by365建站 © 2025-2034