北京价值前沿科技有限公司 AI投研agent:“价小前投研”

MOE模型 (Mixture of Experts)

突破算力与成本瓶颈,开启万亿参数时代,重塑AI商业格局的核心技术路径。

核心观点摘要

MOE模型是当前AI大模型突破算力与成本瓶颈、实现参数规模跃迁(万亿级)的核心技术路径。其本质是通过“稀疏激活”机制,以远低于稠密模型的计算成本实现更强的模型能力。目前,该概念正从技术竞赛的“军备竞赛”阶段,快速过渡到由成本下降驱动的商业化应用爆发前期。核心驱动力在于极致的“性价比”,未来潜力在于重塑AI应用层的成本结构和商业模式,尤其是在国产算力生态中扮演着关键的战略角色。

2024:爆发与竞赛之年

颠覆性成本优势

关键催化剂与未来发展路径

近期催化剂 (3-6个月)

  • 价格战深化与应用爆发:以DeepSeek为首的低价API引发云厂商全面跟进,催生爆款AI原生应用。
  • 下一代架构发布:阿里Qwen3-Next、字节UltraMem等新架构发布,树立性能新标杆。
  • 国产算力标杆落地:基于昇腾等国产平台的MoE模型在金融、政务等领域斩获重大商业合同。

长期发展路径

  • 2024-2025 (架构优化期): 竞争聚焦于路由算法、训练框架及软硬件协同优化。
  • 2025-2027 (垂直深化期): 与多模态、具身智能深度融合,涌现大量行业垂直MoE模型。
  • 2027+ (架构混合期): MoE与Agent Swarm等架构混合,实现更高阶的智能涌现。

核心逻辑与预期差分析

三大核心驱动力

  1. 技术驱动的成本下降:通过“稀疏激活”解耦参数规模与计算量,用稠密模型约1/6的计算成本实现同等性能。
  2. 商业化落地的现实需求:颠覆性降价(如DeepSeek)破除AI应用成本壁垒,推动规模化落地。
  3. 国产算力生态的战略选择:在高端算力受限背景下,以MoE架构最大化利用现有算力,成为关键战略路径。

市场热度与预期差

市场对MoE降本增效前景普遍乐观,但存在三大预期差:

  • 真实竞争力 vs. 宣传叙事:Meta的Llama 405B(非MoE)性能匹敌国产MoE模型,暗示国内模型底层能力或有差距。“参数虚胖”可能掩盖真实性能,华为与阿里模型“惊人一致”的争议也暗示创新不足。
  • 工程复杂度的低估:市场可能忽略训练稳定性、负载均衡、路由策略等核心工程难题,低估了高质量MoE模型的部署门槛。
  • 受益环节的认知模糊:市场未能清晰区分“模型开发者”(华为)、“模型应用者”(汤姆猫)和“基础设施提供商”(瑞斯康达、恒为科技)三者逻辑的纯粹性与弹性差异。

产业链与核心玩家

产业链图谱

  • 上游 (AI基础设施): 算力芯片 (昇腾, 海光), 网络设备 (交换机/光交换) (瑞斯康达, 共进股份, 恒为科技)。
  • 中游 (模型开发与服务): 第一梯队 (华为, 阿里, 腾讯, DeepSeek), 垂直领域 (科大讯飞, 蚂蚁集团)。
  • 下游 (模型应用): 边缘计算 (云天励飞), 垂直行业 (东方通, 汤姆猫)。

核心玩家对比

华为: 逻辑最“硬”,全栈自主可控(昇腾+盘古),契合国产替代战略。

DeepSeek: 逻辑最“纯”,算法创新(MLA)与极致商业化效率(低价API)的典范。

阿里巴巴: 逻辑最“开放”,持续开源Qwen系列,构建开发者生态。

字节跳动: 逻辑最“务实”,聚焦训练成本与推理效率优化(COMET, UltraMem)。

深度资料库

技术趋势: MoE被定位为Transformer架构优化的主流路线,能以更低计算需求大幅提升模型能力,有望成为全球主流技术。

华为 (盘古): 发布准万亿参数盘古Ultra MoE,完全基于昇腾平台训练,实现全栈自主可控。同时发布盘古大模型5.5,覆盖多种MoE架构。

字节跳动 (豆包): 开源训练优化技术COMET,效率提升1.7倍;并提出超越MoE的UltraMem架构,推理速度提升2-6倍。

阿里巴巴 (通义千问): 发布Qwen2.5-Max,并开源Qwen3系列,包含首个超2000亿级MoE模型,实现以10%激活参数超越前代72B模型。

腾讯 (混元): 开源混元Large(389B参数)和Hunyuan-A13B,探索混合推理。

DeepSeek: 作为MoE典范,V2引入MLA算法提升推理效率,并开源通信库DeepEP解决通信瓶颈。

科大讯飞 & 蚂蚁集团: 均在国产算力上取得突破,科大讯飞与华为合作攻克推理难题,蚂蚁集团验证了国产GPU训练3000亿参数MoE的可行性。

核心优势: 核心是“动态路由”,能显著降低推理成本(至稠密模型1/6-1/8),提升训练效率,平衡性能与效率。

技术挑战: 训练稳定性、显存优化(可能牺牲速度)、路由精度、负载均衡是核心难题。

MoE vs. Dense: Llama3采用Dense架构并表现优异,显示MoE并非唯一路径。Dense在长文本处理上更优,MoE更适合通用推理,两者是技术战略选择。

国内外玩家: 国外OpenAI(GPT-4)、Google(Gemini)是先行者;国内阶跃星辰、阿里、华为、字节等均已布局,但多数仍处跟随阶段。

未来趋势: 升级方向为门控精度、专家规模差异化、训练稳定性。稀疏化将从层内扩展到层间(MOLD架构)和模型级(Coe方案)。

技术原理: 核心是通过门控函数(路由)稀疏激活部分专家网络,在扩大总参数的同时降低单次计算量。负载均衡是路由策略关键。

突破万亿参数的关键路径: MoE是当前大模型突破万亿参数规模,同时有效控制训练和部署成本的核心技术。

DeepSeek-V2: 2360亿参数,采用自研DeepSeekMoE和MLA架构,中文能力超GPT-4,API定价仅为GPT-4-Turbo的近百分之一,引爆商业化。

华为Pangu Ultra MoE: 7180亿参数,基于昇腾平台,通过DSSN架构等创新解决训练稳定性难题,标志“国产算力+国产模型”全流程自主可控。

腾讯混元Large: 提出MoE的Scaling Law,采用混合路由、专家回收等高级策略,支持256K长文本。

行业影响: 凭借“参数更多、能力更强、成本更低”的特点,推动下游应用商业化爆发,催生对AI算力基础设施(尤其网络设备)的更高需求。

潜在风险与挑战

  • 技术瓶颈: 训练稳定性、推理速度与显存成本的权衡、路由精度等仍是待优化的技术难题。国内厂商可能存在“底层创新”不足的风险。
  • 商业化风险: 高昂的显存(VRAM)成本是商业化部署的隐性门槛。MoE并非所有场景最优解,存在市场过度泛化的乐观预期。
  • 竞争与路线之争: 高性能开源MoE模型(Qwen, DeepSeek)和强大的Dense模型(Llama3)将持续挤压技术实力较弱厂商的空间,主流技术路线并非一成不变。
  • 信息交叉验证风险: 市场宣传(“超越国际水平”)与产业实际(“Llama稠密模型可匹敌国产MoE”)存在显著差距,需警惕被过于乐观的叙事误导。

产业链核心标的

股票名称 股票代码 核心逻辑 流通市值(亿元)
云天励飞 688343 通过能力蒸馏研发轻量化MoE大模型,支撑大模型在边缘设备的广泛落地。 211.5
东方通 300379 发布基于MoE的深度安全大模型,在LLM+AI Agent框架下为客户快速部署AI安全能力。 98.4
汤姆猫 300459 AI情感陪伴机器人采用MoE架构,搭载自研垂直模型并调用豆包、DeepSeek等模型能力。 219.8
瑞斯康达 603803 MoE推动AI大模型降本,对网络通信需求剧增,交换机迎来新发展机遇。公司布局数据中心交换机等产品。 53.1
共进股份 603118 MoE架构对网络通信提出更高要求,交换机需求受益。公司产品覆盖100G、核心交换机等。 101.4

概念热点追踪

股票名称 股票代码 异动日期 涨幅 核心驱动逻辑
恒为科技 603496 2025-09-10 +5.19% 核心技术突破:发布OCS光交换机方案,为MoE训练和智算超节点提供更优技术路径,精准卡位算力基建新赛道。
中际旭创 300308 2025-06-12 +7.43% 券商研报关注MoE架构下对光组网(800G/1.6T)需求的拉动,公司作为光通信龙头直接受益。
巨人网络 002558 2025-06-12 +9.98% 游戏AI大模型GiantGPT完成备案,专注游戏场景,是MoE等大模型技术在垂直应用领域的典型落地。
中科曙光 603019 2025-11-06 +7.39% 发布全球首个单机柜级640卡超节点,在MoE万亿参数大模型等场景性能提升30-40%,引领国产算力。
因赛集团 300781 2025-07-25 +19.99% 与月之暗面(Kimi)战略合作,为其提供AIGC营销内容及数据服务,深度参与大模型应用生态。