快科技1月24日音讯,华为AI算法团队在东说念主工智能范围获得了显赫突破,他们谋划并发表了一种鼎新的大模子KV Cache压缩算法,名为“RazorAttention”。 这一算法具有突出的性能,粗略灵验精打细算高达70%的大模子推理内存占用,为AI大模子的高效脱手提供了有劲营救。 其论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》已被深度学习范围海外顶级会议ICLR 2025收录。 华为示意,
快科技1月24日音讯,华为AI算法团队在东说念主工智能范围获得了显赫突破,他们谋划并发表了一种鼎新的大模子KV Cache压缩算法,名为“RazorAttention”。
这一算法具有突出的性能,粗略灵验精打细算高达70%的大模子推理内存占用,为AI大模子的高效脱手提供了有劲营救。
其论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》已被深度学习范围海外顶级会议ICLR 2025收录。
华为示意,此算法为业界首个基于Attention可评释性的离线静态KV Cache压缩算法,冲破了往时AI大模子长序列KV Cache压缩不睬念念的近况。
该算法通过检索头的开垦,确保高下文中紧迫且主要的信息不丢失,在保抓高精度(过失小于1%)的情况下,静态灵验压缩了最大到70%的KV Cache内存占用,不错为用户大大精打细算AI大模子推理的资本。
现在RazorAttention算法已居品化集成在昇腾MindIE/MindStudio,营救主流8K~1M长序列KV Cache压缩,32K以上场景增量蒙眬擢升20%+。
【本文死一火】如需转载请务必注明出处:快科技
职守裁剪:随性
著作履行举报 ]article_adlist--> 声明:新浪网独家稿件,未经授权辞让转载。 -->