50s完成7B模型量化4bit达到新SOTA大模型低比特量化有新招了NeurIPS2024Oral

内容摘要  ,他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。  简单理解,在大语言模型(LLM)中,有一些中间层输出的数值(激活值 Activation)会变得非常大,它们被称为“outliers(离群值)”,这些 outliers给模型量化带来了挑战。  这种outliers不同于以往发现的Normal Outl

  ,他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。

  简单理解,在大语言模型(LLM)中,有一些中间层输出的数值(激活值 Activation)会变得非常大,它们被称为“outliers(离群值)”,这些 outliers给模型量化带来了挑战。

  这种outliers不同于以往发现的Normal Outliers,表现为大于绝对值几百的异常值并局限于个别的tokens中——

  它们导致现有的量化算法(如SmoothQuant和OmniQuant)在将模型的权重和激活值量化为4位二进制数时表现不佳。

  DuQuant通过学习旋转和置换变换矩阵,在Activation矩阵内部将outliers转移到其他通道,最终得到平滑的激活矩阵,从而大幅降低了量化难度。

  在每个Transformer块的常见模块中,多头自注意力(MSA)和前馈网络(FFN)基本上都由线性层组成,将其表示为:

  模型量化通过将浮点数(FP16, BF16)表示的模型权重或激活值转换为低位的浮点数或整数来减少内存占用,权重激活量化可以通过使用低比特乘法的算子进一步加快模型推理的速度。

  遵循主流量化方法,作者对激活

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1