|
|
|
|
公众号矩阵

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

超大规模的预训练模型的参数量级又双叒被刷爆了!而且还是用512张GPU,训练了10天搞出来的!

作者:博雯来源:量子位|2021-11-09 16:59

 

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

超大规模的预训练模型的参数量级又双叒被刷爆了!

100000亿

(没错,是10万亿)

而且还是用512张GPU,训练了10天搞出来的!

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

这就是达摩院最新推出的超大规模通用性人工智能大模型,M6-10T

它在电商、制造业、文学艺术、科学研究等领域都有着多模态、多任务的能力,在各自现实场景的下游任务中也频频出现。

而且还能做到即开即用,你今年的双十一背后就有M6-10T的身影。

少量资源快速训练大模型

不过剁手节的事可以先放一边,问题关键是:M6-10T到底是怎么使用少量资源完成对极限规模模型的训练的?

要知道,之前微软的DeepSpeed MoE模型,也是使用了512张A100才完成了3.5万亿参数的训练。

而自家在5个月前推出的万亿级参数的M6,则是用480块GPU训练的。

所以,512张GPU怎么就放下了10万亿参数?

这就要提到达摩院自研的分布式框架Whale。

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

基于这一框架,M6模型可以使用粒度可控的CPU offload方法,灵活地选择offload的模型层。

也就是说,可以不用将所有的权重offload到CPU memory中,而选择保留部分权重在GPU memory上进行计算,以进一步地提高GPU利用率。

放下了参数,下一步就是提高训练效率。

M6-10T模型采用了一种叫做共享解除(Pseudo-to-Real)的新的训练策略:

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

这一策略分为两个阶段。

第一阶段,利用跨层参数共享机制快速构建并训练小模型Pseudo Giant。

参数少得多的Pseudo Giant不受内存的限制,因此可以用大批量训练来加速。

再配合上专家拆分和合并的机制,最终只需要使用256张GPU即可快速训练一个Pseudo Giant。

第二阶段则解除共享参数的联系,得到新的Real Giant模型。

“共享”阶段训练好的模型层的参数会为Real Giant的每一层提供初始化,大模型即可在训练好的小模型的基础上继续优化。

在下游评估中可以看到,从头开始训练Real Giant模型非常耗时,而Pseudo Giant训练的收敛速度比Real Giant训练有5倍左右的优势:

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

△在48个NVIDIA V100 GPU设备上训练

这一机制不仅能够使M6-10T在样本量的维度上具有更快的收敛速度,也能将模型的训练速度提升7倍以上。

而相对于之前的M6-MoE和M6-T,采用了新的训练策略的M60-10T迷惑度(perplexity)更低,模型更优越:

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

可以说,之前使用480GPU的万亿参数模型M6,如果采用现在的方法,那就只需要64张GPU就能完成训练。

双十一背后的模型

而除了算法层面的价值,M6-10T一经推出就能够投入使用。

比如说即将来临的双十一中,你或许就能发现这些AI设计款的衣服上架。

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

△基于M6设计生成的服装款式

这就是大模型带来的创造力。

在结合了StyleGAN后,M6能够在少样本情况下自动生成图像,且保持良好的细节质量和可编辑性。

而且与传统的设计款式图不同,M6生成的还是更接近实物的照片效果。

在手机淘宝和支付宝中,也会有基于M6智能生成的内容文案:

512张GPU炼出10万亿参数巨模型!这个模型今年双十一已经用上了

同时,大模型的多模态特征提取能力,也能进行商品属性标签补充,用于进行认知召回。

可以说,阿里巴巴内部超过40个业务团队背后,都有着基于个版本的M6模型形成的服务化平台的支撑。

而除了电商领域,还有金融、工业、传统科学等诸多应用方向。

现在,M6服务化平台以及成为了前业界覆盖最广泛的大模型生态的服务化平台。

那么未来是继续追求更大量级的模型,进行参数规模的迭代吗?

阿里达摩院M6的科研团队表示:

伴随着参数规模的扩大,当前的预训练模型在语言模型建模之类的任务上取得了不错的进展,
但对知识的理解还比较浅薄。

因此,如何将大模型有效迁移到多种类型的下游任务上,让大模型真正地理解并运用知识,这将是研究人员会进一步探索的问题。

论文:
https://arxiv.org/abs/2110.03888

【编辑推荐】

  1. AI历史学家离世,享年81岁!她是人工智能的伟大观察者
  2. 小数据,大前景 !美国智库最新报告:长期被忽略的小数据人工智能潜力不可估量
  3. 只需1/500数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL模型,引爆AI社区
  4. 隐私技术:赢得“人工智能竞赛”的秘密优势
  5. 本地人工智能:智能手机时代的低功耗分析
【责任编辑:张燕妮 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

带你轻松入门 RabbitMQ

带你轻松入门 RabbitMQ

轻松入门RabbitMQ
共4章 | loong576

53人订阅学习

数据湖与数据仓库的分析实践攻略

数据湖与数据仓库的分析实践攻略

助力现代化数据管理:数据湖与数据仓库的分析实践攻略
共3章 | 创世达人

14人订阅学习

云原生架构实践

云原生架构实践

新技术引领移动互联网进入急速赛道
共3章 | KaliArch

42人订阅学习

视频课程+更多

MySQL数据库运维架构实战

MySQL数据库运维架构实战

讲师:张岩峰1648人学习过

备战软考

备战软考

讲师:王艳华8203人学习过

HTML5CSS3JAVASCRIPT三合一教程实战

HTML5CSS3JAVASCRIPT三合一教程实战

讲师:张晨光28623人学习过

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微