达摩院大模型 M6 突破 10 万亿参数，成全球最大 AI 预训练模型- 400房产网

在人工智能前沿领域，中国 AI 实现突破。11 月 8 日，阿里巴巴达摩院公布多模态大模型 M6 最新进展，其参数已从万亿跃迁至 10 万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的 AI 预训练模型。同时，M6 做到了业内极致的低碳高效，使用 512 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型。相比去年发布的大模型 GPT-3，M6 实现同等参数规模，能耗仅为其 1%。

M6 是达摩院研发的通用性人工智能大模型，拥有多模态、多任务能力，其认知和创造能力超越传统 AI，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。

与传统 AI 相比，大模型拥有成百上千倍“神经元”数量，且预先学习过海量知识，表现出像人类一样“举一反三”的学习能力。因此，大模型被普遍认为是未来的“基础模型”，将成下一代 AI 基础设施。然而，其算力成本相当高昂，训练 1750 亿参数语言大模型 GPT-3 所需能耗，相当于汽车行驶地月往返距离。

今年 5 月，通过专家并行策略及优化技术，达摩院 M6 团队将万亿模型能耗降低超八成、效率提升近 11 倍。10 月，M6 再次突破业界极限，通过更细粒度的 CPU offload、共享-解除算法等创新技术，让收敛效率进一步提升 7 倍，这使得模型规模扩大 10 倍的情况下，能耗未显著增加。这一系列突破极大降低了大模型研究门槛，让一台机器训练出一个千亿模型成为可能。

同时，达摩院联合阿里云推出了 M6 服务化平台，为大模型训练及应用提供完备工具，首次让大模型实现“开箱即用”，算法人员及普通用户均可方便地使用平台。达摩院还推出了当前最大规模的中文多模态评测数据集 MUGE，覆盖图文描述、文本生成图像、跨模态检索任务，填补了缺少中文多模态权威评测基准的空白。

作为国内首个商业化落地的多模态大模型，M6 已在超 40 个场景中应用，日调用量上亿。今年，大模型首次支持双 11。M6 在犀牛智造为品牌设计的服饰已在淘宝上线；凭借流畅的写作能力，M6 正为天猫虚拟主播创作剧本；依靠多模态理解能力，M6 正在增进淘宝、支付宝等平台的搜索及内容认知精度。

（M6 生成的未来感汽车图）

达摩院智能计算实验室负责人周靖人表示，“接下来，我们将深入研究大脑认知机理，致力于将 M6 的认知力提升至接近人类的水平，比如，通过模拟人类跨模态的知识抽取和理解方式，构建通用的人工智能算法底层框架；另一方面，不断增强 M6 在不同场景中的创造力，产生出色的应用价值。”

据了解，达摩院语言大模型 PLUG 近期也已升级至 2 万亿参数，成为全球最大中文语言模型，其所属 AliceMind 语言模型体系同样推出了服务化平台。