DeepSeek FP8概念分析

低精度浮点数格式推动国产AI训练推理技术突破

557万美金
DeepSeek V3训练成本

概念介绍

DeepSeek FP8是一种低精度浮点数格式,用于大模型的训练和推理。FP8(8位浮点数)相比传统的FP16(16位浮点数)和FP32(32位浮点数)可以大幅降低算力需求、显存占用和通信带宽。

UE8M0是FP8的一种特殊格式,无符号,8位指数,0位尾数,只能表示2的n次方,这种格式可以将神经网络中的乘法运算转化为更简单的加法运算,大幅提升计算效率。

技术优势
  • 相比FP16节约一半算力/显存/带宽
  • 相比FP32节约3/4资源
  • UE8M0格式乘法比其他FP8快数倍
  • 显著节约芯片面积

核心观点摘要

DeepSeek FP8代表了国产AI训练推理技术的重要突破,通过低精度混合训练显著降低算力需求与成本,同时推动国产芯片生态协同发展。目前该概念处于技术验证向商业化过渡的关键阶段,核心驱动力在于算力成本下降与国产替代加速,未来潜力在于构建完整的国产AI软硬件生态体系。

概念事件时间轴

2025年1月27日
路演中提到DeepSeek采用FP8混合精度进行训练,降低训练成本。
2025年2月1日
路演中提到DPDK(DeepSeek)V3版本通过FP8低精度训练实现显著降本。
2025年2月4日
路演中提到FP8技术的未开源性及与低成本技术路径的关联。
2025年2月4日
路演中提到DeepSeek首次在大规模模型上验证了FP8训练的可行性和有效性。
2025年2月5日
路演中提到FP8在训练层的首次应用及训练端与推理端的FP8关联。
2025年2月9日
路演中提到FP8技术的特性与应用限制,以及DeepSeek在FP8训练中的优化措施。
2025年2月13日
路演中提到FP8的核心作用、技术来源与应用及对未来模型的潜在影响。
2025年8月21日
DeepSeek发布V3.1版本,使用UE8M0 FP8 Scale参数精度。
2025年8月21日-22日
多家券商发布研报,分析DeepSeek FP8对国产算力的影响。
2025年8月22日
路演中提到华为下一代芯片将支持FP8精度,预计第四季度送测厂商。

核心逻辑与市场认知分析

技术突破

DeepSeek成功解决了FP8在训练场景中容易导致模型不收敛的问题,通过细粒度控制低精度方法和底层指令选择,实现了FP8在大规模模型训练中的可行性和有效性。这一技术突破大幅降低了训练成本,DeepSeek V3的训练成本约为557万美金,相比其他"数亿美金训练成本"的模型具有极大成本优势。

成本下降

FP8混合精度训练通过降低计算和存储需求、提高训练速度,直接推动训练成本降低。相比FP16,FP8可以节约一半算力/显存容量/通信带宽,相比FP32能节约3/4。UE8M0格式的乘法比其他FP8快数倍,且明显节约芯片面积。这种成本下降使得更多企业能够负担大模型的训练和部署,推动了AI技术的普及。

国产替代

UE8M0 FP8是针对即将发布的下一代国产芯片设计的,这一技术路径与国产芯片的发展方向高度契合。华为、寒武纪、摩尔线程等国产芯片厂商纷纷宣布支持FP8精度,有望缩小与英伟达等国际巨头的差距,推动国产算力的自主可控。

生态协同

DeepSeek通过DeepGEMM开源库公开了FP8的实现,促进了整个生态的发展。同时,多家国产芯片厂商、软件厂商和硬件厂商围绕FP8形成协同效应,共同推动国产AI生态的完善。

市场热度

从新闻和研报的密集度来看,市场对DeepSeek FP8概念的关注度较高,情绪整体偏向乐观。2025年8月21日DeepSeek发布V3.1版本后,多家券商迅速发布研报分析其影响,中信计算机、民生电子等机构明确看好"国产算力与国产模型合力支撑下的中国AI产业"。

谨慎声音

路演中提到,国产芯片支持FP8的厂商较少,即使支持,迁移DeepSeek的优化措施也非常困难。此外,FP8在训练场景中的应用仍面临技术挑战,如上溢和下溢问题,需要通过DBC(模型缩放、变量缩放及GPU调度优化)等技术解决。这些因素导致部分市场参与者对FP8技术的实际应用效果持保留态度。

技术成熟度预期差

研报和新闻中普遍强调FP8技术的优势和应用前景,但路演中显示FP8在训练场景中容易导致模型不收敛,国产芯片支持FP8的厂商较少,即使支持,迁移DeepSeek的优化措施也非常困难。这表明FP8技术的实际应用难度可能被市场低估。

商业化进程预期差

研报和新闻中普遍看好FP8技术的商业化前景,但路演中提到华为下一代芯片(可能命名为910x)将支持FP8精度,预计第四季度送测厂商,寒武纪690已顺利流片并进入到云商测试,但大规模商业化应用仍需时间。这表明FP8技术的商业化进程可能比市场预期的要慢。

国产替代程度预期差

研报和新闻中普遍强调FP8技术对国产算力的推动作用,但路演中提到国产GPU架构自主可控问题:计算公司公告称"力争解决",实际未完全自主(采用Imagination IP)。这表明国产芯片的自主可控程度可能被市场高估。

成本降低幅度预期差

研报和新闻中普遍强调FP8技术可以大幅降低训练成本,但路演中提到DeepSeek训练一次的成本约为OpenAI的2%左右(并非某些自媒体所说的1%)。这表明FP8技术降低成本的幅度可能被市场夸大。

关键催化剂与未来发展路径

华为下一代芯片发布

路演中提到华为下一代芯片(可能命名为910x)将支持FP8精度,预计第四季度送测厂商。这一事件将是推动DeepSeek FP8概念发展的重要催化剂。

寒武纪690大规模出货

民生电子研报提到寒武纪690已顺利流片并进入到云商测试,反馈较好,预计整体出货25年20W,26年50W张。寒武纪690的大规模出货将验证FP8技术在商业应用中的可行性。

昇腾910D系列量产

民生电子研报提到昇腾910D及920系列支持FP8,当前910D已成功回片进入到云商测试,预计910D系列26年30W张出货。昇腾910D系列的量产将进一步推动FP8技术的普及。

DeepSeek V3.1广泛应用

DeepSeek V3.1使用了UE8M0 FP8 Scale的参数精度,如果这一版本在市场上获得广泛应用,将验证FP8技术的实际效果,推动更多厂商采用这一技术。

2025-2026
技术成熟阶段

FP8技术将逐步成熟,更多的国产芯片厂商将支持FP8精度,软件框架和工具链将逐步完善。

2026-2027
生态建设阶段

FP8技术将形成完整的生态体系,包括芯片、软件框架、开发工具、应用等多个环节。

2027-2028
规模化应用阶段

FP8技术将实现规模化应用,成为AI训练和推理的主流技术之一。国产算力将实现自主可控。

2028+
创新发展阶段

FP8技术将进一步创新和发展,可能出现更低精度但更高效率的技术。国产AI技术将实现全面领先。

关键里程碑
  • 2025年Q4:华为下一代芯片送测厂商
  • 2026年:寒武纪690大规模出货(预计20W张)
  • 2026年:昇腾910D系列量产(预计30W张)
  • 2027年:FP8技术生态体系基本形成
  • 2028年:FP8技术实现规模化应用

产业链与核心公司深度剖析

产业链图谱
上游(芯片设计与制造)
  • 芯片设计:寒武纪、芯原股份、中兴通讯(中兴微)
  • 芯片制造:中芯国际
  • 存储芯片:兆易创新
中游(算力硬件与软件)
  • GPU芯片:摩尔线程、华为昇腾
  • 服务器与系统集成:智微智能
  • AI软件框架:DeepSeek、中昊芯英
下游(应用与服务)
  • AI应用:佳都科技、大华股份、理工能科
  • 云服务:首都在线
  • 行业解决方案:科德教育、艾布鲁
核心玩家对比
寒武纪
领导者
竞争优势

寒武纪580及下一代产品690均支持FP8,690已顺利流片并进入到云商测试,反馈较好。公司在AI芯片领域有深厚积累,技术领先。

业务进展

预计690整体出货25年20W,26年50W张,显示出良好的商业化前景。

潜在风险

芯片设计制造周期长,投资大,回报周期长;国际竞争激烈,面临英伟达等巨头的压力。

华为昇腾
领导者
竞争优势

华为在AI领域有全栈布局,从芯片到软件框架到应用场景,生态完整。910D及920系列支持FP8,910D已成功回片进入到云商测试。

业务进展

预计910D系列26年30W张出货,商业化前景良好。华为生态软件适配更优,在国产芯片中具有明显优势。

潜在风险

国际制裁影响供应链;路演中提到当前910B库存积压,主要用于推理而非训练,产品结构需要调整。

摩尔线程
追赶者
竞争优势

第四代GPU芯片增加了FP8精度支持,大幅提升AI算力。融资70亿,软件生态是优势。

业务进展

基于该芯片支撑面向DeepSeek类前沿大模型预训练的万卡集群智算中心解决方案,应用场景明确。

潜在风险

路演中提到"技术门槛低(对比计算、汉博等竞品)",技术优势可能不明显;GPU领域竞争激烈,面临英伟达、AMD等国际巨头的压力。

中昊芯英
逻辑最纯粹
竞争优势

把DeepSeek-V3系列模型(包括UE8MO FP8 Scale精度配置)作为重点优化对象,宣称在计算精度、模型运行稳定性、协同效率等指标上全部达标,技术专注度高。

业务进展

通过科德教育、艾布鲁等上市公司获得资金支持,发展前景良好。

潜在风险

规模相对较小,资源有限;技术实力与寒武纪、华为等巨头相比有差距。

潜在风险与挑战

模型收敛问题

路演中提到,FP8在训练场景中容易导致模型不收敛,因此难以广泛应用。虽然DeepSeek成功解决了这一问题,但国产芯片使用FP8训练时,能否实现模型收敛仍存在不确定性。

精度损失问题

FP8相比FP16和FP32会有精度损失,在某些对精度要求高的场景可能不适用。路演中提到FP8和BF16精度在训练中效果接近(差异仅为0.25%),但这一差异在某些应用场景可能是关键的。

技术适配难度

FP8技术需要与芯片硬件、软件框架等多方面适配,这一过程复杂且耗时。路演中提到,即使国产芯片支持FP8,迁移DeepSeek的优化措施也非常困难。

技术迭代风险

AI技术发展迅速,FP8可能只是过渡技术,未来可能出现更低精度(如FP6、FP4)但更高效率的技术,使当前投资面临淘汰风险。

成本控制问题

虽然FP8技术可以降低训练和推理成本,但芯片设计制造本身成本高昂,如何在保证性能的同时控制成本是一个挑战。

市场接受度

FP8技术是一种新技术,市场接受度需要时间培养。特别是在企业级市场,客户对新技术往往持谨慎态度。

应用场景限制

FP8技术虽然在训练和推理中具有优势,但在某些对精度要求高的场景可能不适用,这限制了其应用范围。

投资回报周期

芯片设计制造周期长,投资大,回报周期长。特别是在当前经济环境下,长期投资面临更多不确定性。

国际制裁风险

华为等公司面临国际制裁,可能影响其供应链和技术发展。路演中提到"国际制裁影响供应链",这是一个重要风险点。

国际竞争压力

英伟达等国际巨头也在积极推动FP8等低精度技术的发展,国产芯片在这一领域面临激烈竞争。

政策变动风险

虽然当前政策支持国产算力发展,但政策方向可能发生变化,影响行业发展。

标准竞争风险

FP8有多种格式(如E4M3、E5M2、UE8M0等),不同格式的竞争可能导致市场分裂,增加开发成本。

综合结论与投资启示

综合结论

DeepSeek FP8概念目前处于技术验证向商业化过渡的关键阶段。从技术角度看,FP8低精度训练确实能够显著降低算力需求和成本,DeepSeek成功解决了FP8在训练场景中的收敛问题,验证了技术的可行性。从产业化角度看,华为、寒武纪、摩尔线程等国产芯片厂商纷纷布局FP8技术,产品逐步进入测试和量产阶段,商业化进程正在推进。从市场角度看,FP8技术获得了券商和媒体的广泛关注,市场情绪整体偏向乐观。

然而,FP8技术仍面临技术适配难度大、商业化进程不确定、国际竞争激烈等挑战。国产芯片的自主可控程度、FP8技术的实际效果、商业化进程的速度等关键问题仍需进一步验证。因此,DeepSeek FP8概念目前仍具有一定程度的主题炒作特征,但已经开始向基本面驱动阶段过渡。

投资启示
最具投资价值的细分环节
  • 芯片设计:寒武纪、芯原股份等芯片设计公司在FP8技术上有明确布局,产品已进入测试和量产阶段,商业化前景清晰。
  • 算力硬件:华为昇腾、摩尔线程等GPU厂商增加了FP8精度支持,产品性能提升,应用场景明确。
  • AI软件:中昊芯英等公司专注于DeepSeek-V3系列模型的优化,特别是UE8MO FP8 Scale精度配置,业务逻辑纯粹。
投资策略
  • 长期布局:FP8技术是AI发展的重要趋势,具有长期投资价值,建议长期布局芯片设计、算力硬件等核心环节。
  • 关注催化剂:密切关注华为下一代芯片送测、寒武纪690大规模出货、昇腾910D系列量产等关键催化剂。
  • 风险控制:注意技术风险、商业化风险、政策风险等,合理控制仓位,避免过度集中。
关键跟踪指标
产品出货量

寒武纪690、昇腾910D等支持FP8的芯片出货量是验证商业化进程的关键指标。

技术进展

华为下一代芯片的测试结果、国产芯片FP8技术的实际效果等技术进展是验证技术可行性的关键指标。

应用案例

DeepSeek V3.1在实际应用中的表现、FP8技术在各行业的应用案例是验证技术价值的关键指标。

相关股票数据

股票名称 分类 相关性 消息来源 投资逻辑
寒武纪 技术支持 公司2022年定增项目先进工艺平台芯片项目和稳定工艺平台芯片项目(调整后),大模型技术能力的持续提升中,用FP8格式训练代替FP32格式训练,数据存储从32位压缩至8位,有效的提升大模型训练效率 公告 公司通过FP8技术优化大模型训练效率
芯原股份 技术支持 公司在研项目"面向数据中心和GPU-AI计算的高性能图形处理器技术"拟达到目标:支持INT4/INT8/INT16/FP8/FP16/BF16等多种数据格式 公告 研发高性能GPU技术并支持多种数据格式
兆易创新 技术支持 公司的GD5F系列支持FP8混合精度计算,其M87系列支持DDR5ECC纠错,与UE8MOFP8的内存架构协同 网传纪要 产品支持FP8计算和内存架构协同
智微智能 技术支持 公司基于AMD FP8平台开发高算力MINI AIPC产品项目已研发完成,具备本地50 Tops AI算力,产品应用PC行业很多新技术 公告 基于FP8平台开发高算力产品
佳都科技 技术支持 2024年,公司基于FP8混合精度预训练等技术,实现知行大模型训练效率较2024年初提升超150%,并在国产工卡GPU集群上完成了大模型优化训练方法的验证 公告 应用FP8技术提升大模型训练效率
大华股份 技术支持 公司AI工程能力持续优化,为实现大模型的高效训练,多方面优化训练框架:支持FP32和FP8混合精度训练,以在保持模型精度的同时最大化显存利用率和计算效率 公告 优化训练框架支持FP8混合精度
理工能科 技术支持 人工智能战略蓝图由一座公司级算力调度平台、FP8精度671B的LLM大脑和围绕公司核心业务训练的丰富专家模型库组成1+2布局,通用能力层由模型训练和管理平台、智能体生态平台和公司知识库底座三个公共服务构成 公告 构建包含FP8精度计算的AI战略
中兴通讯 技术支持 FP8是针对下一代的国产芯片设计,中兴微在国内芯片设计领域具有重要地位 公开资料 参与下一代国产芯片设计
科德教育 中昊芯英 公司参股的中昊芯英(5.9933%)把DeepSeek-V3系列模型(包括 UE8MO FP8 Scale 精度配置)作为重点优化对象,宣称在计算精度、模型运行稳定性、协同效率等指标上全部达标 网传纪要 参股公司优化FP8模型
艾布鲁 中昊芯英 公司控股子公司杭州星罗中昊科技(持股50%)持有中昊芯英(杭州)科技7.0465%股份 互动 通过子公司持有中昊芯英股份
和而泰 摩尔线程 公司直接持股摩尔线程1.244%,摩尔第四代GPU芯片,增加了FP8精度支持,大幅提升AI算力,公司基于该芯片支撑面向DeepSeek类前沿大模型预训练的万卡集群智算中心解决方案 公告 持股摩尔线程并参与智算中心建设
联美控股 摩尔线程 子公司拉萨联虹对摩尔线程股权投资,初始投资成本为人民币1亿元 公告 直接投资摩尔线程
ST华通 摩尔线程 公司及旗下的产业基金少数股权投资了摩尔线程 调研 通过产业基金投资摩尔线程
盈趣科技 摩尔线程 公司基于战略布局和多元化发展的考虑投资摩尔线程 互动 战略投资摩尔线程
圣元环保 摩尔线程 公司通过认购中原前海的基金份额3亿元人民币间接参与了摩尔线程的投资 互动 通过基金份额间接投资
初灵信息 摩尔线程 公司所认购的北京中移数字经济产业基金为摩尔线程的参股方 互动 通过产业基金参股