KK系列 把密致力计较丢给CPU,大模子解码婉曲量提高1.76~4.99倍
CPU+GPUKK系列,模子 KV 缓存压力被缓解了。
来自 CMU、华盛顿大学、Meta AI 的商酌东谈主员建议MagicPIG,通过在 CPU 上使用 LSH(局部敏锐哈希)采样时间,灵验克服了 GPU 内存容量截止的问题。
与仅使用 GPU 的密致力机制比较,MagicPIG 在各式情况下提高了1.76~4.99 倍的解码婉曲量,并在检索和推理任务中终明晰更高的卑鄙准确率,优于 Quest 等现存时间。
空洞而言,这项商酌主要孝敬有两点:
1、比较于其他的寥落密致力(Sparse Attention),MagicPIG 基于采样 / 测度而非搜索,普及了推理质地。
se情在线2、商酌把解码阶段密致力模块的计较和哈希表卸载到 CPU 上,探索了异构计较的可能性,而且普及了婉曲量,有望缩短实验模子部署本钱。
底下具体来看。
KV 缓存截止了 GPU 高效诓骗
在长高下文大模子(LLM)的推理历程中,KV 缓存(Key-Value Cache)成为关键瓶颈。KV 缓存主要用于存储中间的密致力键和值,从而幸免重迭计较。
然而,其显存占用跟着批量大小和序列长度的线性增长而速即增多,这严重截止了 GPU 的批量处理能力,导致计较资源无法被充分诓骗。
以NVIDIA A100-40GB GPU为例,在处理 Llama-3.1-8B 模子且高下文长度为 128k 时,仅复古单个肯求,且近一半的解码时分齐铺张在访谒 KV 缓存上,GPU 诓骗率光显不及。
此外,推理历程中遴荐的一些计谋,如万般性生成(Best-of-N)和长链式推理(Long Chain-of-Thoughts),会进一步增多生成的 Token 数目,加重显存压力,导致推理效力进一步下跌。
TopK Attention 的问题
人所共知,密致力机制实质上具有寥落性,因此动态寥落密致力和基于 TopK 的肖似步调赢得了世俗商酌。
然而,这些步调时常伴跟着显赫的质地下跌问题。
当今已有的 KV 缓存压缩时间,如 Quest、H2O 和 Loki,主要通过筛选出 KV 缓存中密致力得分最高的子集来提高效力。然而,尽管这些步调在实践中进展出一定的效力,基于 TopK 的密致力仍是是一种存在偏差的肖似步调,且短缺表面上的严格保险。
这种不及截止了其在高精度场景中的世俗应用。
下图知道,即使是精准的 TopK 密致力机制也会导致显赫的测度瑕玷和卑鄙任务性能下跌。
这一问题在需要高高下文诓骗率的复杂任务中尤为隆起,举例团员任务、常用词索求(CWE)、高频词索求(FWE)以及逻辑推理任务。在这些场景中,基于 TopK 肖似步调的性能下跌尤其严重。
以下几点不雅察揭示了为何 TopK 密致力机制无法永恒灵验职责。
这些不雅察不仅讲明了密致力机制的活动,还可能对模子试验具有病笃真理:
1、首个输入 token(密致力汇注点,sink)的散失现象(包括但不限于键和值现象)真实不随输入变化而改动。(见左图, 在采样的输入中,其最小相同度均高于 0.99)
2、键现象的中心标的在不同输入句子中保抓踏实。(见中图, 相同度均高于 0.9)
3、键现象的中心与汇注点 token 的键现象真实违反。(见右图, -0.9 至 -0.8 之间)
这些景色为吞并密致力机制提供了新的视角KK系列,同期也标明传统的 TopK 肖似步调在某些场景下可能存在局限性。
为了科罚这一问题,商酌建议了一种基于采样而非搜索 TopK 键值缓存的新步调。
算法:基于采样的密致力测度
与仅依赖密致力分数最高的键值对比较,融入基础漫衍信息不错显赫提高测度的准确性。
商酌将这一问题视为采样中的偏差改良问题。在生物学、社会学和机器学习等范围,无偏且高效的采样时间已被世俗商酌,并具有坚实的表面保险。
如图所示,基于密致力分数按比例进行采样(即所谓的 Oracle Sampling,商酌把密致力模块的输出当作 value 向量的盼望值,对应的漫衍是密致力得分)比较于传统的 TopK 弃取步调,其测度瑕玷要小得多,最多可缩短 4 倍。
这标明采样时间在密致力肖似中的后劲。
从密致力得分� � 中采样,在实验中弗成行。病笃性采样(Importance Sampling)允许从一个已知漫衍� � 中抽取样本� �1,� �2,…,� �B,来测度未知漫衍� � 的盼望。
最终的输出由下式给出:
病笃性采样条款� � 和� � 的峰值对应以缩短测度方差,为此,商酌使用局部敏锐哈希(LSH) 来生成采样概率� �。
需要指出的是,因为存在 Softmax(密致力得分需要归一化), 是以商酌实验上试图肖似的是自归一化病笃性采样。
系统:将密致力计较和哈希表放在 CPU 上
除了精度下跌的问题外,受限的 GPU 显存容量也截止了现存动态 KV 缓存压缩步调(如 Quest 和 Loki)在好多场景中的适用性。
与此同期,像 DeepSpeed-Zero-Inference 和 FastDecode 这么的时间展示了将 KV 缓存和密致力计较卸载到 CPU 上的后劲。
CPU 的内存带宽爽直是 GPU 显存带宽的10%-20%,这引出了一个当然的问题:
能否在不猖狂精度的前提下,将密致力计较中的内存访谒量减少 10 倍?
通过诓骗采样算法,举例 MagicPIG 中基于 LSH(局部敏锐哈希)的采样时间进行密致力测度,商酌大幅缩短了内存访谒量。这种步调等效地普及了 CPU 的内存带宽,使得在保管精度的情况下终了高效的密致力计较。
论文的系统磋磨推广了以往的职责,将大言语模子(LLM)的解码分为以下四个部分:
参数计较:包括通盘线性投均在 GPU 上运转。
密致力计较:波及公式
,该部分在 CPU 上运转。
立时投影:在生成历程中,关于每个� � 实行 K x L 次立时投影以生成哈希码。由于通盘密致力头不错分享调换的立时投影器,内存支拨较小(在实验终了中约为 400KB)。实验中 K=9 或 10,而 L 为数百,因此该智力主要受计较截止,扬弃在 GPU 上运转。
检索:需要在 L 个哈希表中查找 q 的哈希码。这部分计较支拨特殊轻量,但预构建的哈希表占用的内存较大,因此更妥当扬弃在 CPU 上运转。通过上述任务分区,不错复古更大范畴的 K 和 L 哈希表,而无需顾虑哈希码计较和哈希表存储的支拨。
实验
商酌从准确率和推理速率两个方面来评估 MagicPIG 系统的能力。
图片中的百分比为实验采样的 KV cache 的数目,关于 MagicPIG 而言,K10L150 ≈ 2%, K10L170 ≈ 2.5%。
长文本 RULER
以 Llama-3.1-8B-Instruct 为例,MagicPIG 在检索和推理任务中比 Quest(寥落密致力的 SOTA 基线)终明晰更高的卑鄙准确率。
推理速率和婉曲量
在 L20 + Intel 8563C 上测试婉曲量,MagicPIG 与仅使用 GPU 的密致力机制比较,在各式情况下提高了 1.76~4.99 倍的解码婉曲量。
合座而言,MagicPIG 是将经典的哈希算法和高维向量测度用到 LLM 解码上的尝试。
接下来,商酌将复古愈加高效的局部敏锐哈希算法,并但愿进一步缩短 LLM 部署本钱,探索异构计较的可能性。
论文:
https://arxiv.org/abs/2410.16179
阵势地址:
www.lsh-ai.com
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 阵势主页教唆,以及商酌姿首哦
咱们会(尽量)实时汇报你
点这里� � 关爱我,铭刻标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日再见 ~