华为盘古团队正式公布了昇腾原生的分组混合专家模型

华为盘古团队正式公布了昇腾原生的分组混合专家模型—盘古Pro MoE

发布于 2个月前
 783 热度

 0 评论

彼岸半夏
1 粉丝 37 篇博客

日前，华为盘古团队正式公布了昇腾原生的分组混合专家模型——「盘古 Pro MoE」。据盘古团队介绍：混合专家模型（MoE）在大语言模型（LLMs）中逐渐兴起，该架构能够以较低计算成本支持更大规模的参数，从而获得更强的表达能力。这一优势源于其稀疏激活机制的设计特点，即每个输入 token 仅需激活部分参数即可完成计算。然而，在实际部署中，不同专家的激活频率存在严重的不均衡问题，一部分专家被过度调用，而其他专家则长期闲置，导致系统效率低下。

为此，盘古团队提出了新型的分组混合专家模型（Mixture of Grouped Experts, MoGE），其在专家选择阶段对专家进行分组，并约束 token 在每个组内激活等量专家，从而实现专家负载均衡，显著提升模型在昇腾平台的部署效率。

据悉，盘古 Pro MoE 模型基于 MoGE 架构，团队构建了总参数量 720 亿、激活参数量 160 亿，并针对昇腾 300I Duo 和 800I A2 平台进行系统优化。

性能表现上，盘古 Pro MoE 在昇腾 800I A2 上实现了单卡 1148 tokens/s 的推理吞吐性能，并可进一步通过投机加速等技术提升至 1528 tokens/s，显著优于同等规模的 320 亿和 720 亿参数的稠密模型；在昇腾 300I Duo 推理服务器上，盘古团队也实现了极具性价比的模型推理方案。

团队研究表明，昇腾 NPU 能够支持盘古 Pro MoE 的大规模并行训练。多项公开基准测试结果表明，盘古 Pro MoE 在千亿内总参数模型中处于领先地位。
从官方给出的对比表格来看，盘古 Pro MoE 与 Qwen3-32B、GLM-Z1-32B、Gemma3-27B、Llama4-Scout 对比，在中文、英文、推理等多个领域均有超越。
模型技术报告（中文）：https://gitcode.com/ascend-tribe/pangu-pro-moe/blob/main/README.md
模型技术报告（英文）：https://arxiv.org/abs/2505.21411

 用户评论

AI大模型
 103 成员 |  696 话题
+我要提问 +随便写写

可能感兴趣的话题

Anthropic重磅研究：只需250个文档，就能给任意大模型投毒

Meta新成立的超级智能实验室扔出的一篇论文让大模型RAG推理速度狂飙30倍

苹果推出SimpleFold通用预测模型，直接对标AlphaFold2

Coinbase强制员工用AI写代码，结果安全漏洞暴增1000%