HUAWEI 全新压缩 RAM 算法,AI 大模型可节省 70% RAM

近期,华为AI算法团队表示在人工智能领域取得显著突破,研究并发表一种创新的大模型 KV Cache 压缩算法,称为「RazorAttention」。

HUAWEI 全新压缩 RAM 算法,AI 大模型可节省 70% RAM

新算法具有卓越的性能表现,可以有效节省高达 70%的大模型推理 RAM 占用,AI 大模型提供更多的空间,提供强有力的支持。

HUAWEI 全新压缩 RAM 算法,AI 大模型可节省 70% RAM

目前相关论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》已被深度学习领域国际顶级会议 ICLR 2025 收录,可见其重要性。

华为表示,RazorAttention是业界首个基于Attention可解释性的离线静态KV Cache压缩算法,打破一直以来AI大模型长序列KV Cache压缩不理想的硬伤,减少设备负担,提高计算速度。

RazorAttention 是通过检索头的设置,保证上下文中重要且主要的信息保留,且在保持高精度(误差小于1%)的前提下,实现静态有效压缩最大70% 的 KV Cache RAM 占用,大大减少 AI 大模型推理的成本。

值得一提的是,目前 RazorAttention 算法已实现产品化,并集成在升腾 MindIE/MindStudio,支持主流 8K~1M 长序列 KV Cache 压缩,在 32K 以上场景增量吞吐提升20%+。

(0)
TechWhizKidTechWhizKid

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注