DeepSeek FP8 概念深度研究

核心概念事件

DeepSeek FP8 概念的核心是围绕中国AI大模型公司 DeepSeek（深度求索）在其新一代大模型训练和推理中，开创性地大规模应用 FP8（8位浮点数）精度，特别是针对国产AI芯片生态进行优化的 UE8M0 FP8 格式。这一举动被市场视为软件定义硬件、算法赋能算力的标志性事件。

背景

算力成本、显存消耗、通信带宽成为大模型核心瓶颈，国产AI芯片寻求性能与生态突破意愿迫切。

核心催化

DeepSeek V3.1宣布采用“UE8M0 FP8”精度，并明确指出此举是“针对即将发布的下一代国产芯片设计”。

市场反应

消息引发资本市场高度关注，云天励飞、海光信息等个股20CM涨停，标志市场对“模型联动国产芯片”新范式的强烈认同。

核心观点摘要

DeepSeek FP8概念的本质，是在国产AI算力硬件性能尚存差距的背景下，由顶尖算法公司发起的一场“软件定义硬件”的效率革命。其核心驱动力是通过算法创新（低精度训练）来弥补硬件短板，实现成本骤降与供应链安全。该概念目前正从“主题炒作”向“基本面验证”的早期阶段过渡，未来潜力巨大，但成功与否高度依赖于国产芯片厂商的硬件原生支持和整个生态的协同推进。

训练成本对比 (美元)

核心逻辑与市场认知分析

三大核心驱动力

成本驱动 (效率革命): 训练算力下降90%，成本仅为同类模型5%-10%。API定价最高下降96%，激发“杰文斯悖论”，刺激总算力需求爆发。
战略驱动 (国产替代): 官方直言为国产芯片设计，引导和加速国产AI芯片迭代，构建独立于NVIDIA CUDA的国产化解决方案。
技术驱动 (范式转移): 推动AI产业从“暴力美学”的算力堆砌，转向“算效优化”新范式，为追赶者提供非对称竞争路径。

市场预期差分析

原创性 vs. 工程开创性: 市场可能误认为UE8M0是DeepSeek独创。实际上，标准源自NVIDIA，DeepSeek的核心贡献是“大规模工程实现与实践”，解决了FP8训练不收敛等稳定性难题。

普适性 vs. 结构性利好: 并非所有国产芯片都能同等受益。芯片原生支持FP8至关重要，非原生支持“至少损失30%性能和20%的智商”。核心受益者是硬件层面深度布局FP8的公司。

完全开源 vs. 核心保留: DeepSeek虽开源了DeepGEMM等库，但解决稳定训练的关键技术（如底层改写、数据索引机制）并未开源，保留了自身核心技术壁垒。

关键催化剂与发展路径

近期催化剂 (3-6个月)

华为下一代昇腾芯片发布: 作为协同开发伙伴，其原生支持FP8的芯片发布将是路线成功的关键验证。
更多国产芯片适配公告: 寒武纪、摩尔线程等与主流模型完成深度适配并公布性能数据。
标杆项目落地: 出现基于“DeepSeek模型 + 国产FP8芯片”方案的大型商业或政务采购订单。

长期发展路径

标准确立 (当前-2025)
硬件普及 (2025-2026)
生态繁荣 (2026以后)
端侧渗透 (未来)

潜在风险与挑战

技术风险

收敛与精度问题仍是核心瓶颈；UE8M0与其他FP8格式可能导致生态碎片化。

商业化风险

国产芯片真实性能与稳定性待大规模验证；客户从CUDA生态迁移成本高，市场接受度存不确定性。

竞争风险

NVIDIA自身也在大力推进低精度计算，其Hopper和Blackwell架构提供强大FP8算力，国产方案需建立性价比和生态护城河。

技术深度解析

什么是 UE8M0 FP8？

U: Unsigned, 无符号，只能表示0或正数。

E8: Exponent, 用8位表达指数。

M0: Mantissa, 用0位表达尾数 (默认为1)。

这种格式只能表示2的n次方，主要用作缩放因子(Scale)。其优势在于可将复杂的乘法运算 (2^m * 2^n) 转化为简单的加法 (2^(m+n))，加法器电路面积远小于乘法器，运算速度快数倍，且显著节约芯片面积。

对国产算力的影响

采用UE8M0 FP8能带来国产卡FP8精度的调优与使用效率提升，将进一步缩小与NV芯片的效率/成本差距，大大增加国产芯片的可用性。

华为昇腾: 下一代芯片(910x)将支持FP8，预计Q4送测。
寒武纪: 690、思元590等已支持FP8。
海光信息: DeepSeekV3已与海光DCU完成适配并投入使用。

旨在构建“‘精度格式-硬件架构-框架生态’三位一体的国产化解决方案”。

DeepSeek的贡献

NVIDIA 提供了标准（UE8M0 格式），而DeepSeek贡献了工程实现与大规模实践（DeepGEMM代码、FP8 稳定训练方案）。

DeepGEMM: 开源FP8通用矩阵乘法库, 针对Hopper优化, 性能比 CUTLASS3.6 快 2.7 倍。
DeepEP: 开源EP通信库, 用于MoE模型, 提供原生FP8调度支持。
FP8混合精度训练: 首次在大规模模型上验证了FP8训练的可行性与有效性，释放硬件全部潜力。

产业链核心标的

股票名称	代码	关联原因	标签
寒武纪	688256	公司先进工艺平台芯片项目支持FP8格式训练，可有效提升大模型训练效率。	技术支持
芯原股份	688521	在研的高性能GPU技术拟支持INT4/INT8/FP8/FP16等多种数据格式。	技术支持
兆易创新	603986	GD5F系列支持FP8混合精度计算，M87系列支持DDR5 ECC，与UE8MOFP8内存架构协同。	技术支持
智微智能	001339	基于AMD FP8平台开发的高算力MINI AI PC产品项目已研发完成。	技术支持
佳都科技	600728	基于FP8混合精度预训练等技术，实现知行大模型训练效率大幅提升。	技术支持
大华股份	002236	为实现大模型高效训练，优化训练框架支持FP32和FP8混合精度训练。	技术支持
理工能科	002322	公司人工智能战略蓝图包含FP8精度671B的LLM大脑。	技术支持
中兴通讯	000063	FP8针对下一代国产芯片设计，中兴微在国内芯片设计领域具有重要地位。	技术支持
科德教育	300192	参股的中昊芯英将DeepSeek-V3系列模型(含UE8M0 FP8)作为重点优化对象。	间接相关中昊芯英
艾布鲁	301259	控股子公司持有中昊芯英(杭州)科技股份。	间接相关中昊芯英
和而泰	002402	持股摩尔线程，其第四代GPU增加FP8支持，支撑面向DeepSeek类模型的万卡集群方案。	间接相关摩尔线程
联美控股	600167	子公司对摩尔线程进行股权投资。	间接相关摩尔线程

涨幅分析与逻辑验证

股票名称	代码	日期	涨幅	核心驱动逻辑
云天励飞	688343	2025-08-22	20.0%	DeepSeek适配国产FP8，公司14nm推理芯片原生支持FP8并完成适配，叠加指数调整，三因素共振。
海光信息	688041	2025-08-22	20.0%	DeepSeek-V3.1宣布率先完成海光DCU适配，逻辑最纯粹的已验证者，叠加工信部政策催化。
航锦科技	000818	2025-08-22	10.0%	DeepSeek V3.1白皮书确认公司FP8训练平台进入其供应链，政策事件与基本面落地共振。
中芯国际	688981	2025-08-22	14.19%	AI算力需求爆发，国产替代加速，作为芯片制造环节核心直接受益。云天励飞14nm芯片由其代工。
龙芯中科	688047	2025-08-22	7.30%	最新处理器已集成对UE8M0 FP8格式的支持，在硬件层面支持新兴技术标准，符合国产AI算力发展趋势。