• 首页
  • 哥要搞蝴蝶谷
  • 樱井莉亚快播
  • 情欲印象写真
  • 2222fn
  • www.26uuu
  • av百科
  • 情欲印象写真

    你的位置:麻豆人妖 > 情欲印象写真 >

    KK系列 把密致力计较丢给CPU,大模子解码婉曲量提高1.76~4.99倍

    发布日期:2024-12-28 09:08    点击次数:136

    KK系列 把密致力计较丢给CPU,大模子解码婉曲量提高1.76~4.99倍

    CPU+GPUKK系列,模子 KV 缓存压力被缓解了。

    来自 CMU、华盛顿大学、Meta AI 的商酌东谈主员建议MagicPIG,通过在 CPU 上使用 LSH(局部敏锐哈希)采样时间,灵验克服了 GPU 内存容量截止的问题。

    与仅使用 GPU 的密致力机制比较,MagicPIG 在各式情况下提高了1.76~4.99 倍的解码婉曲量,并在检索和推理任务中终明晰更高的卑鄙准确率,优于 Quest 等现存时间。

    空洞而言,这项商酌主要孝敬有两点:

    1、比较于其他的寥落密致力(Sparse Attention),MagicPIG 基于采样 / 测度而非搜索,普及了推理质地。

    se情在线

    2、商酌把解码阶段密致力模块的计较和哈希表卸载到 CPU 上,探索了异构计较的可能性,而且普及了婉曲量,有望缩短实验模子部署本钱。

    底下具体来看。

    KV 缓存截止了 GPU 高效诓骗

    在长高下文大模子(LLM)的推理历程中,KV 缓存(Key-Value Cache)成为关键瓶颈。KV 缓存主要用于存储中间的密致力键和值,从而幸免重迭计较。

    然而,其显存占用跟着批量大小和序列长度的线性增长而速即增多,这严重截止了 GPU 的批量处理能力,导致计较资源无法被充分诓骗。

    以NVIDIA A100-40GB GPU为例,在处理 Llama-3.1-8B 模子且高下文长度为 128k 时,仅复古单个肯求,且近一半的解码时分齐铺张在访谒 KV 缓存上,GPU 诓骗率光显不及。

    此外,推理历程中遴荐的一些计谋,如万般性生成(Best-of-N)和长链式推理(Long Chain-of-Thoughts),会进一步增多生成的 Token 数目,加重显存压力,导致推理效力进一步下跌。

    TopK Attention 的问题

    人所共知,密致力机制实质上具有寥落性,因此动态寥落密致力和基于 TopK 的肖似步调赢得了世俗商酌。

    然而,这些步调时常伴跟着显赫的质地下跌问题。

    当今已有的 KV 缓存压缩时间,如 Quest、H2O 和 Loki,主要通过筛选出 KV 缓存中密致力得分最高的子集来提高效力。然而,尽管这些步调在实践中进展出一定的效力,基于 TopK 的密致力仍是是一种存在偏差的肖似步调,且短缺表面上的严格保险。

    这种不及截止了其在高精度场景中的世俗应用。

    下图知道,即使是精准的 TopK 密致力机制也会导致显赫的测度瑕玷和卑鄙任务性能下跌。

    这一问题在需要高高下文诓骗率的复杂任务中尤为隆起,举例团员任务、常用词索求(CWE)、高频词索求(FWE)以及逻辑推理任务。在这些场景中,基于 TopK 肖似步调的性能下跌尤其严重。

    以下几点不雅察揭示了为何 TopK 密致力机制无法永恒灵验职责。

    这些不雅察不仅讲明了密致力机制的活动,还可能对模子试验具有病笃真理:

    1、首个输入 token(密致力汇注点,sink)的散失现象(包括但不限于键和值现象)真实不随输入变化而改动。(见左图, 在采样的输入中,其最小相同度均高于 0.99)

    2、键现象的中心标的在不同输入句子中保抓踏实。(见中图, 相同度均高于 0.9)

    3、键现象的中心与汇注点 token 的键现象真实违反。(见右图, -0.9 至 -0.8 之间)

    这些景色为吞并密致力机制提供了新的视角KK系列,同期也标明传统的 TopK 肖似步调在某些场景下可能存在局限性。

    为了科罚这一问题,商酌建议了一种基于采样而非搜索 TopK 键值缓存的新步调。

    算法:基于采样的密致力测度

    与仅依赖密致力分数最高的键值对比较,融入基础漫衍信息不错显赫提高测度的准确性。

    商酌将这一问题视为采样中的偏差改良问题。在生物学、社会学和机器学习等范围,无偏且高效的采样时间已被世俗商酌,并具有坚实的表面保险。

    如图所示,基于密致力分数按比例进行采样(即所谓的 Oracle Sampling,商酌把密致力模块的输出当作 value 向量的盼望值,对应的漫衍是密致力得分)比较于传统的 TopK 弃取步调,其测度瑕玷要小得多,最多可缩短 4 倍。

    这标明采样时间在密致力肖似中的后劲。

    从密致力得分� � 中采样,在实验中弗成行。病笃性采样(Importance Sampling)允许从一个已知漫衍� � 中抽取样本� �1,� �2,…,� �B,来测度未知漫衍� � 的盼望。

    最终的输出由下式给出:

    病笃性采样条款� � 和� � 的峰值对应以缩短测度方差,为此,商酌使用局部敏锐哈希(LSH) 来生成采样概率� �。

    需要指出的是,因为存在 Softmax(密致力得分需要归一化), 是以商酌实验上试图肖似的是自归一化病笃性采样。

    系统:将密致力计较和哈希表放在 CPU 上

    除了精度下跌的问题外,受限的 GPU 显存容量也截止了现存动态 KV 缓存压缩步调(如 Quest 和 Loki)在好多场景中的适用性。

    与此同期,像 DeepSpeed-Zero-Inference 和 FastDecode 这么的时间展示了将 KV 缓存和密致力计较卸载到 CPU 上的后劲。

    CPU 的内存带宽爽直是 GPU 显存带宽的10%-20%,这引出了一个当然的问题:

    能否在不猖狂精度的前提下,将密致力计较中的内存访谒量减少 10 倍?

    通过诓骗采样算法,举例 MagicPIG 中基于 LSH(局部敏锐哈希)的采样时间进行密致力测度,商酌大幅缩短了内存访谒量。这种步调等效地普及了 CPU 的内存带宽,使得在保管精度的情况下终了高效的密致力计较。

    论文的系统磋磨推广了以往的职责,将大言语模子(LLM)的解码分为以下四个部分:

    参数计较:包括通盘线性投均在 GPU 上运转。

    密致力计较:波及公式

    ,该部分在 CPU 上运转。

    立时投影:在生成历程中,关于每个� � 实行 K x L 次立时投影以生成哈希码。由于通盘密致力头不错分享调换的立时投影器,内存支拨较小(在实验终了中约为 400KB)。实验中 K=9 或 10,而 L 为数百,因此该智力主要受计较截止,扬弃在 GPU 上运转。

    检索:需要在 L 个哈希表中查找 q 的哈希码。这部分计较支拨特殊轻量,但预构建的哈希表占用的内存较大,因此更妥当扬弃在 CPU 上运转。通过上述任务分区,不错复古更大范畴的 K 和 L 哈希表,而无需顾虑哈希码计较和哈希表存储的支拨。

    实验

    商酌从准确率和推理速率两个方面来评估 MagicPIG 系统的能力。

    图片中的百分比为实验采样的 KV cache 的数目,关于 MagicPIG 而言,K10L150 ≈ 2%, K10L170 ≈ 2.5%。

    长文本 RULER

    以 Llama-3.1-8B-Instruct 为例,MagicPIG 在检索和推理任务中比 Quest(寥落密致力的 SOTA 基线)终明晰更高的卑鄙准确率。

    推理速率和婉曲量

    在 L20 + Intel 8563C 上测试婉曲量,MagicPIG 与仅使用 GPU 的密致力机制比较,在各式情况下提高了 1.76~4.99 倍的解码婉曲量。

    合座而言,MagicPIG 是将经典的哈希算法和高维向量测度用到 LLM 解码上的尝试。

    接下来,商酌将复古愈加高效的局部敏锐哈希算法,并但愿进一步缩短 LLM 部署本钱,探索异构计较的可能性。

    论文:

    https://arxiv.org/abs/2410.16179

    阵势地址:

    www.lsh-ai.com

    —  完  —

    投稿请发邮件到:

    ai@qbitai.com

    标题注明【投稿】,告诉咱们:

    你是谁,从哪来,投稿内容‍

    附上论文 / 阵势主页教唆,以及商酌姿首哦

    咱们会(尽量)实时汇报你

    点这里� � 关爱我,铭刻标星哦~

    一键三连「分享」、「点赞」和「在看」

    科技前沿进展日日再见 ~