近期,华为AI算法团队表示在人工智能领域取得显著突破,研究并发表一种创新的大模型 KV Cache 压缩算法,称为「RazorAttention」。
新算法具有卓越的性能表现,可以有效节省高达 70%的大模型推理 RAM 占用,AI 大模型提供更多的空间,提供强有力的支持。
目前相关论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》已被深度学习领域国际顶级会议 ICLR 2025 收录,可见其重要性。
华为表示,RazorAttention是业界首个基于Attention可解释性的离线静态KV Cache压缩算法,打破一直以来AI大模型长序列KV Cache压缩不理想的硬伤,减少设备负担,提高计算速度。
RazorAttention 是通过检索头的设置,保证上下文中重要且主要的信息保留,且在保持高精度(误差小于1%)的前提下,实现静态有效压缩最大70% 的 KV Cache RAM 占用,大大减少 AI 大模型推理的成本。
值得一提的是,目前 RazorAttention 算法已实现产品化,并集成在升腾 MindIE/MindStudio,支持主流 8K~1M 长序列 KV Cache 压缩,在 32K 以上场景增量吞吐提升20%+。