昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理
2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE ,稀疏型天 性能强劲,大模 同时推理成本更低。首创Skywork-MoE 基于之前昆仑万维开源的推理 Skywork-13B 模型中间 checkpoint 扩展而来,是昆仑开源首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是千亿全球首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。
开源地址:
Skywork-MoE 的稀疏型天模型权重、技术报告完全开源,大模免费商用,首创无需申请:
• 模型权重下载:
○ https://huggingface.co/Skywork/Skywork-MoE-base
○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
• 模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE
• 模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
• 模型推理代码:(支持 8x4090 服务器上 8 bit 量化加载推理) https://github.com/SkyworkAI/vllm
模型架构:
本次开源的推理 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是昆仑开源其中的中档大小模型(Skywork-MoE-Medium),模型的千亿全球总参数量为 146B,激活参数量 22B,稀疏型天共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。
天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。
模型能力:
我们基于目前各大主流模型评测榜单评测了 Skywork-MoE,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力在行业前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。
技术创新:
为了解决 MoE 模型训练困难,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 设计了两种训练优化算法:
1. Gating Logits 归一化操作
我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习更加趋向于被选中的 top-2 experts,增加 MoE 模型对于 top-2 的置信度:
2. 自适应的 Aux Loss
有别于传统的固定系数(固定超参)的 aux loss, 我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数,从而让 Drop Token Rate 保持在合适的区间内,既能做到 expert 分发的平衡,又能让 expert 学习具备差异化,从而提升模型整体的性能和泛化水平。在 MoE 训练的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分布差异太大),此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期,我们希望 Expert 之间仍保证一定的区分度,避免 Gating 倾向为随机分发 Token,因此需要较低的 aux loss 降低纠偏。
训练 Infra
如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计,从而在千卡集群上实现了 MFU 38% 的训练吞吐,其中 MFU 以 22B 的激活参数计算理论计算量。
1. Expert Data Parallel
区别于 Megatron-LM 社区已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)设计,我们提出了一种称之为 Expert Data Parallel 的并行设计方案,这种并行方案可以在 Expert 数量较小时仍能高效的切分模型,对 Expert 引入的 all2all 通信也可以最大程度的优化和掩盖。相较于 EP 对 GPU 数量的限制和 ETP 在千卡集群上的低效, EDP 可以较好的解决大规模分布式训练 MoE 的并行痛点,同时 EDP 的设计简单、鲁棒、易扩展,可以较快的实现和验证。
一个最简单的 EDP 的例子,两卡情况下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel
2. 非均匀切分流水并行
由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算,以及 Pipeline Buffer 的存在, 流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式,使得总体的计算/显存负载更均衡,约有 10% 左右的端到端训练吞吐提升。
比较均匀切分和非均匀切分下的流水并行气泡:对于一个 24 层 Layer 的 LLM, (a) 是均匀切分成 4 个 stage,每个 stage 的 layer 数量是:[6, 6, 6, 6].(b) 是经过优化后的非均匀切分方式,切成 5 个 stage, 每个 stage 的 layer 数量是:[5, 5, 5, 5, 4] , 在中间流水打满的阶段,非均匀切分的气泡更低。
MoE Know-how
此外,Skywork-MoE 还通过一系列基于 Scaling Laws 的实验,探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。
一个可以遵循的经验规则是:如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的 2 倍以上,那么选择 from Scratch 训练 MoE 会更好,否则的话,选择 Upcycling 训练 MoE 可以明显减少训练成本。
4090 推理
Skywork-MoE 是目前能在 8x4090 服务器上推理的最大的开源 MoE 模型。8x4090 服务器一共有 192GB 的 GPU 显存,在 FP8 量化下(weight 占用 146GB),使用我们首创的非均匀 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合适的 batch size 内达到 2200 tokens/s 的吞吐。天工团队完整开源了相关的推理框架代码和安装环境,详情参见:https://github.com/SkyworkAI/Skywork-MoE
结语
我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面, 探索用更低的训练推理成本训更大更强的模型,在通往 AGI 的道路上贡献一点力量。
雷峰网(公众号:雷峰网)
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
346
-
浏览
8727
-
获赞
118
热门推荐
-
LMC 2020 全新夏季系列 Lookbook 赏析,现已发售~
潮牌汇 / 潮流资讯 / LMC 2020 全新夏季系列 Lookbook 赏析,现已发售~2020年04月02日浏览:2691 继《闪灵》系列释出后,来自韩国的街头品颈纹可以打除皱针吗 颈部打除皱针
颈纹可以打除皱针吗 颈部打除皱针时间:2022-07-19 12:40:27 编辑:nvsheng 导读:除皱针是很常见的一种去除皱纹的方式,除皱针通过注射去除皱纹,有很好的美容效果,很多人都有颈中南空管局管制中心塔台管制室开展航空器冲偏出跑道桌面应急演练
中南空管局管制中心 刘康年 王秋影为进一步落实民航局关于加强应急救援管理工作的要求,提高塔台管制员应对特情的处置能力,增强塔台管制室与机场各单位共同处置突发事件的能力,10月25日,白云塔台管制室联合穿旗袍怎样不显肚子 穿旗袍怎么显身材
穿旗袍怎样不显肚子 穿旗袍怎么显身材时间:2022-07-03 12:34:48 编辑:nvsheng 导读:旗袍作为我国传统的一种女性服装,是十分好看的,不过想要旗袍穿的好看,对身材的要求也是很记者:弗拉泰西已参加个人训练,国米现在还有另外5名伤员
2月29日讯 意大利记者Simone Togna报道,国米目前有6名伤员,弗拉泰西已进行个人训练。记者表示:“国际米兰现在有五名伤员,加上已经参加个人训练的弗拉泰西,情况好些了,不确定弗拉泰西明天是否ipsa粉霜好用吗 茵芙莎粉底霜怎么样
ipsa粉霜好用吗 茵芙莎粉底霜怎么样时间:2022-07-06 10:24:26 编辑:nvsheng 导读:ipsa这个牌子的东西好评很多,有很多热门好用的产品,ipsa粉霜外包装是黑色鹅卵石丰胸精油的正确使用方法 丰胸精油按摩方法
丰胸精油的正确使用方法 丰胸精油按摩方法时间:2022-07-11 12:59:12 编辑:nvsheng 导读:使用精油按摩胸部丰胸是很受欢迎的一种丰胸方式,市面上有很多好用的丰胸精油,丰胸精油怎样瘦肚子小窍门最快 懒人瘦肚子的最快方法
怎样瘦肚子小窍门最快 懒人瘦肚子的最快方法时间:2022-07-18 10:39:43 编辑:nvsheng 导读:大腹便便让整个人看起来都不太清爽,肚子肥大是现在很多人的有的一个问题,瘦肚子是很恭喜埃弗顿!英超历史最大罚单取消,新罚单立即生效,脱离降级区
去年的11月份,英超联赛官方宣布了对埃弗顿的处罚措施,他们在本赛季将会被处以10分的罚分处罚,理由是俱乐部违反了英超的盈利和可持续发展规则,这一处罚结果成为了英超历史上最大的罚单。此前虽然也有俱乐部遭穿瘦腿袜有什么危害 瘦腿袜的危害
穿瘦腿袜有什么危害 瘦腿袜的危害时间:2022-07-03 12:34:46 编辑:nvsheng 导读:瘦腿袜是很多女生都在穿的一种瘦腿的袜子,瘦腿袜会使腿部被勒得很紧,是无数MM们青睐的瘦腿神乳晕缩小适合什么年龄做 乳晕整形最佳年龄
乳晕缩小适合什么年龄做 乳晕整形最佳年龄时间:2022-07-19 12:40:40 编辑:nvsheng 导读:乳晕缩小在成年女性中是一项很受欢迎的整形项目,它是通过切除多余组织来达到让乳晕看起脂肪填充隔多久填充第二次 脂肪填充要隔多久
脂肪填充隔多久填充第二次 脂肪填充要隔多久时间:2022-07-06 10:22:42 编辑:nvsheng 导读:脂肪填充是很受大家喜爱的一种整形方法,脂肪填充可以很好的填补面部凹陷,是我们整个利物浦的未来在哪?青训营“星二代”崛起,克洛普直言未来可期
几位青训明星的出现推动了利物浦夺取四冠王的势头,更多的“星二代”有望在红军拥有光明的未来。 在利物浦足球俱乐部的青训营中,新的明星正在崭露头角,他们的出现为红军注入了新的活力,推动着球队向着四冠王的副乳切除会影响淋巴吗 副乳切除对淋巴有什么影响
副乳切除会影响淋巴吗 副乳切除对淋巴有什么影响时间:2022-07-09 12:52:00 编辑:nvsheng 导读:副乳切除一般是不会影响到淋巴的,不过前提一定是在正规的医院以及医生操作的情况潘多拉手链一般穿几颗 潘多拉珠如何搭配
潘多拉手链一般穿几颗 潘多拉珠如何搭配时间:2022-07-06 10:22:40 编辑:nvsheng 导读:潘多拉手链是可以自己搭配珠子配饰的,潘多拉珠子的款式有几千款,大家挑选的时候,根据手