发布日期:2025-02-16 11:55 点击次数:72
据豆包大模子团队音讯,字节跨越豆包大模子Foundation团队近期提议UltraMem,一种相通将策画和参数解耦的疏淡模子架构,在保证模子后果的前提下处理了推理的访存问题。据先容,该架构灵验处理了MoE推理时高额的访存问题,推理速率较MoE架构进步2-6倍,推理老本最高可缩短83%。
跟着模子规模的扩大,推理老本和访存效劳已成为适度大模子规模欺诈的要津瓶颈。近期,字节跨越豆包大模子团队提议了全新的疏淡模子架构 UltraMem,该架构灵验处理了 MoE 推理时高额的访存问题,推理速率较 MoE 架构进步 2-6 倍,推理老本最高可缩短 83%。该征询还揭示了新架构的 Scaling Law,讲明其不仅具备优异的 Scaling 特点,更在性能上超越了 MoE。
实验拆伙标明,老到规模达 2000 万 value 的 UltraMem 模子,在同等策画资源下,可同期已矣业界最先的推理速率和模子性能,为构建数十亿规模 value 或 expert 开垦了新旅途。
在 Transformer 架构下,模子的性能与其参数数目和策画复杂度呈对数联系。跟着 LLM 规模不休增大,推理老本会急剧加多,速率变慢。
尽管 MoE 架构还是收效将策画和参数解耦,但在推理时,较小的 batch size 就会激活沿途大家,导致访存急剧高潮,进而使推理延长大幅加多。
为此,字节跨越豆包大模子 Foundation 团队提议 UltraMem,一种相通将策画和参数解耦的疏淡模子架构,在保证模子后果的前提下处理了推理的访存问题。
实验拆伙标明,在参数和激活要求疏通的情况下,UltraMem 在模子后果上超越了 MoE,并将推理速率进步了 2-6 倍。此外,在常见 batch size 规模下,UltraMem 的访存老本险些与同策画量的 Dense 模子很是。

当今,该论文已被 ICLR 2025 经受。
Ultra-Sparse Memory Network
论文贯串:https://arxiv.org/abs/2411.12364
1. MoE 与 PKM 的局限性
LLM 的才调增长需要指数级增长的策画资源,这在及时欺诈等资源有限的环境中颇具挑战。为了处理策画问题,先前的征询者提议了 MoE 和 Product Key Memory(PKM)有谋略,但它们皆有各自的局限性。
MoE 通过疏淡激活 expert 解耦了策画和参数,但在推理场景中,速率其实很慢。原因在于,模子在推理时只可一个字一个字的生成,因此 batch size 和 sequence length 皆很小,在这个场景下,MoE 的整个大家经常会被沿途打听到,极其容易际遇访存瓶颈,导致推理延长激增。
PKM 最早提议 large memory layer,其中包含了数目纷乱的疏淡参数 value,这里 value 其实便是一个向量,每个 token 会字据一个「行路由」和一个「列路由」定位到得分最高的几个 value,激活这些 value 后作念 weighted sum pooling 当作 memory layer 的输出。这种步地因为每个 token 在推理时只是只激活少许数的 value,是以推理时不会际遇访存瓶颈,但自后果很差,且 scaling 才调差。

2. UltraMem 兼顾访存和后果
UltraMem 参考了 PKM 的遐想,但针对 PKM 的 3 个颓势给以补充,以已矣更高效的访存、更优质的 value 检索,同期,缩短了显存和部署老本。
① 优化模子结构
PKM 的遐想中,memory layer 惟有 1 层,插在通盘 Transformer 的中间层,这对大规模老到并不友好,何况如斯纷乱的疏淡参数应该尽可能多的参与到每次的残差贯串中。
因此,股票杠杆征询团队拆分出多个小 memory layer,以固定的拒绝散播在 transformer layer 中;何况加多了 skip-layer 的操作,即现时层的 memory layer 的输出会加到背面某层 transformer layer 的输出。这使得模子不错并行地实践 memory layer 的访存操作和 transformer layer 的策画。

② 优化 value 检索方法
在检索时,惟有 score 最高的 m 个 value 会被激活,PKM 的 score 是通过「行 score」+「列 score」得到的。团队进一步探索了一种更复杂的乘法步地 Tucker Decomposed Query-Key Retrieval(TDQKR)。这一步地受启发于 Tucker Decomposition。具体来看,给定 values,shape 为(n,n,h),其中 h 为 hidden size,那么 values 的 score S_grid 不错作念如下理会:

其中
这里的新规静悄悄:多处网点驿站表示并无影响
与此同时,34家银行去年合计增员不到7000人,增量、增幅均为近年最低。新增员工主要分布在业务营销、信息科技等方面,柜员、低学历员工群体则继续优化减员。

是可学习的 tucker core。这个结构下,每个 value 的 score 由 r 个行 score 和 r 个列 score 的组合乘加得回,具备更高的复杂度。

③ 隐式膨大疏淡参数
更多的疏淡参数经常会带来更好的后果,但过多的参数又会给显存和部署带来贵重。为此,征询团队提议了 Implicit Value Expansion (IVE)步地隐式地膨大疏淡参数,并引入了 virtual memory 和 physical memory 的见识。
盛康配资以 4 倍膨大为例(如下图所示),virtual memory 的数目是 physical memory 的 4 倍,给定多对(score,index)后,最先按照 virtual memory address table 作念查表,4 个 virtual block 会查询合并个 physical memory table,之后各自作念 weighted sum pooling,并流程不同的线性层,终末再乞降输出。
由于终末的 Linear 和取 value 之间莫得任何非线性操作,因此每个 Linear 皆不错和 physical memory table 作念交融,生成一个全新的 memory table,这个例子下,执行上隐式膨大了 4 倍的 value 数目。

3. 实验拆伙:推理速率较 MoE 最高进步 6 倍
① 模子性能评估
征询团队在 151M、680M、1.6B 三个尺寸的激活参数上作念了平凡实验,其中 MoE、PKM 和 UltraMem 的总疏淡参数保握在激活参数的 12 倍。
如下表所示,不错发现 UltraMem 在 680M、1.6B 上具有权贵的后果上风。

跟着疏淡参数的加多,UltraMem 的后果和推理速率如何变化?
下图(b)展示了 UltraMem 的后果变化,横轴为疏淡参数和繁多参数的比值,每个样式的线代表了一种疏淡度。疏淡度界说为 value 的数目 / 每个 token 激活的 value 数目。不雅察发现,握续加多疏淡参数和 loss 的下落呈对数联系;且疏淡度越小,模子后果越好;关联词疏淡度握续缩短带来的收益在冉冉足够。
下图(c)展示了 UltraMem 的推理时间变化,横轴为疏淡参数和繁多参数的比值。不雅察发现,UltraMem 在握续加多疏淡参数时推理时间险些不变,反不雅 MoE 有权贵增长的趋势。

② 消融实验
征询团队在 151M 激活、1.5B 总参数的疏淡模子上进行了全面的消融实验。从最原始的 PKM 启动,冉冉加多一些 trick 和上文提议的结构更动,最终能拿到 C4 validation loss -0.092 的权贵收益,同期疏淡参数和策画量险些不变。

要而言之,征询团队提议的 UltraMem 具有极小的访存,因此,比拟 MoE 已矣了最高达 6 倍的速率进步,推理老本最高可缩短 83%。同期,在性能方面,跟着模子容量的加多,在疏通的参数和策画量情况下,UltraMem 非常了 MoE,标明其具有更强的膨大才调。这项使命为设置更高效和可膨大的话语模子提供了一个有但愿的标的。
4. 写在终末
UltraMem 能灵验地欺诈于对延长要求较高的推理场景(举例代码补全),幸免了肖似 MoE 的访存瓶颈。即使在通用场景下,UltraMem 相较于 MoE 皆展现出了权贵的速率上风,除非 batch size 上万的顶点场景。
现时悦来网配资,针对 UltraMem 的时刻演进仍存在多少值得探索的标的,包括但不限于:如何高效优化疏淡参数、如何进步疏淡模子推理才调、如何更优地激活疏淡参数等。这些时刻标的或将成为后续征询的弥留切入点。