DeepSeek FP8概念分析

概念介绍

DeepSeek FP8是一种低精度浮点数格式，用于大模型的训练和推理。FP8（8位浮点数）相比传统的FP16（16位浮点数）和FP32（32位浮点数）可以大幅降低算力需求、显存占用和通信带宽。

UE8M0是FP8的一种特殊格式，无符号，8位指数，0位尾数，只能表示2的n次方，这种格式可以将神经网络中的乘法运算转化为更简单的加法运算，大幅提升计算效率。

                            技术优势
                            相比FP16节约一半算力/显存/带宽
相比FP32节约3/4资源
UE8M0格式乘法比其他FP8快数倍
显著节约芯片面积

                        

核心观点摘要

DeepSeek FP8代表了国产AI训练推理技术的重要突破，通过低精度混合训练显著降低算力需求与成本，同时推动国产芯片生态协同发展。目前该概念处于技术验证向商业化过渡的关键阶段，核心驱动力在于算力成本下降与国产替代加速，未来潜力在于构建完整的国产AI软硬件生态体系。

概念事件时间轴

2025年1月27日

路演中提到DeepSeek采用FP8混合精度进行训练，降低训练成本。

2025年2月1日

路演中提到DPDK（DeepSeek）V3版本通过FP8低精度训练实现显著降本。

2025年2月4日

路演中提到FP8技术的未开源性及与低成本技术路径的关联。

2025年2月4日

路演中提到DeepSeek首次在大规模模型上验证了FP8训练的可行性和有效性。

2025年2月5日

路演中提到FP8在训练层的首次应用及训练端与推理端的FP8关联。

2025年2月9日

路演中提到FP8技术的特性与应用限制，以及DeepSeek在FP8训练中的优化措施。

2025年2月13日

路演中提到FP8的核心作用、技术来源与应用及对未来模型的潜在影响。

2025年8月21日

DeepSeek发布V3.1版本，使用UE8M0 FP8 Scale参数精度。

2025年8月21日-22日

多家券商发布研报，分析DeepSeek FP8对国产算力的影响。

2025年8月22日

路演中提到华为下一代芯片将支持FP8精度，预计第四季度送测厂商。

核心逻辑与市场认知分析

技术突破

DeepSeek成功解决了FP8在训练场景中容易导致模型不收敛的问题，通过细粒度控制低精度方法和底层指令选择，实现了FP8在大规模模型训练中的可行性和有效性。这一技术突破大幅降低了训练成本，DeepSeek V3的训练成本约为557万美金，相比其他"数亿美金训练成本"的模型具有极大成本优势。

成本下降

FP8混合精度训练通过降低计算和存储需求、提高训练速度，直接推动训练成本降低。相比FP16，FP8可以节约一半算力/显存容量/通信带宽，相比FP32能节约3/4。UE8M0格式的乘法比其他FP8快数倍，且明显节约芯片面积。这种成本下降使得更多企业能够负担大模型的训练和部署，推动了AI技术的普及。

国产替代

UE8M0 FP8是针对即将发布的下一代国产芯片设计的，这一技术路径与国产芯片的发展方向高度契合。华为、寒武纪、摩尔线程等国产芯片厂商纷纷宣布支持FP8精度，有望缩小与英伟达等国际巨头的差距，推动国产算力的自主可控。

生态协同

DeepSeek通过DeepGEMM开源库公开了FP8的实现，促进了整个生态的发展。同时，多家国产芯片厂商、软件厂商和硬件厂商围绕FP8形成协同效应，共同推动国产AI生态的完善。

市场热度

从新闻和研报的密集度来看，市场对DeepSeek FP8概念的关注度较高，情绪整体偏向乐观。2025年8月21日DeepSeek发布V3.1版本后，多家券商迅速发布研报分析其影响，中信计算机、民生电子等机构明确看好"国产算力与国产模型合力支撑下的中国AI产业"。

谨慎声音

路演中提到，国产芯片支持FP8的厂商较少，即使支持，迁移DeepSeek的优化措施也非常困难。此外，FP8在训练场景中的应用仍面临技术挑战，如上溢和下溢问题，需要通过DBC（模型缩放、变量缩放及GPU调度优化）等技术解决。这些因素导致部分市场参与者对FP8技术的实际应用效果持保留态度。

技术成熟度预期差

研报和新闻中普遍强调FP8技术的优势和应用前景，但路演中显示FP8在训练场景中容易导致模型不收敛，国产芯片支持FP8的厂商较少，即使支持，迁移DeepSeek的优化措施也非常困难。这表明FP8技术的实际应用难度可能被市场低估。

商业化进程预期差

研报和新闻中普遍看好FP8技术的商业化前景，但路演中提到华为下一代芯片（可能命名为910x）将支持FP8精度，预计第四季度送测厂商，寒武纪690已顺利流片并进入到云商测试，但大规模商业化应用仍需时间。这表明FP8技术的商业化进程可能比市场预期的要慢。

国产替代程度预期差

研报和新闻中普遍强调FP8技术对国产算力的推动作用，但路演中提到国产GPU架构自主可控问题：计算公司公告称"力争解决"，实际未完全自主（采用Imagination IP）。这表明国产芯片的自主可控程度可能被市场高估。

成本降低幅度预期差

研报和新闻中普遍强调FP8技术可以大幅降低训练成本，但路演中提到DeepSeek训练一次的成本约为OpenAI的2%左右（并非某些自媒体所说的1%）。这表明FP8技术降低成本的幅度可能被市场夸大。

关键催化剂与未来发展路径

华为下一代芯片发布

路演中提到华为下一代芯片（可能命名为910x）将支持FP8精度，预计第四季度送测厂商。这一事件将是推动DeepSeek FP8概念发展的重要催化剂。

寒武纪690大规模出货

民生电子研报提到寒武纪690已顺利流片并进入到云商测试，反馈较好，预计整体出货25年20W，26年50W张。寒武纪690的大规模出货将验证FP8技术在商业应用中的可行性。

昇腾910D系列量产

民生电子研报提到昇腾910D及920系列支持FP8，当前910D已成功回片进入到云商测试，预计910D系列26年30W张出货。昇腾910D系列的量产将进一步推动FP8技术的普及。

DeepSeek V3.1广泛应用

DeepSeek V3.1使用了UE8M0 FP8 Scale的参数精度，如果这一版本在市场上获得广泛应用，将验证FP8技术的实际效果，推动更多厂商采用这一技术。

2025-2026

技术成熟阶段

FP8技术将逐步成熟，更多的国产芯片厂商将支持FP8精度，软件框架和工具链将逐步完善。

2026-2027

生态建设阶段

FP8技术将形成完整的生态体系，包括芯片、软件框架、开发工具、应用等多个环节。

2027-2028

规模化应用阶段

FP8技术将实现规模化应用，成为AI训练和推理的主流技术之一。国产算力将实现自主可控。

2028+

创新发展阶段

FP8技术将进一步创新和发展，可能出现更低精度但更高效率的技术。国产AI技术将实现全面领先。

关键里程碑

2025年Q4：华为下一代芯片送测厂商
2026年：寒武纪690大规模出货（预计20W张）
2026年：昇腾910D系列量产（预计30W张）
2027年：FP8技术生态体系基本形成
2028年：FP8技术实现规模化应用

产业链与核心公司深度剖析

产业链图谱

上游（芯片设计与制造）

芯片设计：寒武纪、芯原股份、中兴通讯（中兴微）
芯片制造：中芯国际
存储芯片：兆易创新

中游（算力硬件与软件）

GPU芯片：摩尔线程、华为昇腾
服务器与系统集成：智微智能
AI软件框架：DeepSeek、中昊芯英

下游（应用与服务）

AI应用：佳都科技、大华股份、理工能科
云服务：首都在线
行业解决方案：科德教育、艾布鲁

通过科德教育、艾布鲁等上市公司获得资金支持，发展前景良好。

潜在风险

规模相对较小，资源有限；技术实力与寒武纪、华为等巨头相比有差距。

潜在风险与挑战

模型收敛问题

路演中提到，FP8在训练场景中容易导致模型不收敛，因此难以广泛应用。虽然DeepSeek成功解决了这一问题，但国产芯片使用FP8训练时，能否实现模型收敛仍存在不确定性。

精度损失问题

FP8相比FP16和FP32会有精度损失，在某些对精度要求高的场景可能不适用。路演中提到FP8和BF16精度在训练中效果接近（差异仅为0.25%），但这一差异在某些应用场景可能是关键的。

技术适配难度

FP8技术需要与芯片硬件、软件框架等多方面适配，这一过程复杂且耗时。路演中提到，即使国产芯片支持FP8，迁移DeepSeek的优化措施也非常困难。

技术迭代风险

AI技术发展迅速，FP8可能只是过渡技术，未来可能出现更低精度（如FP6、FP4）但更高效率的技术，使当前投资面临淘汰风险。

成本控制问题

虽然FP8技术可以降低训练和推理成本，但芯片设计制造本身成本高昂，如何在保证性能的同时控制成本是一个挑战。

市场接受度

FP8技术是一种新技术，市场接受度需要时间培养。特别是在企业级市场，客户对新技术往往持谨慎态度。

应用场景限制

FP8技术虽然在训练和推理中具有优势，但在某些对精度要求高的场景可能不适用，这限制了其应用范围。

投资回报周期

芯片设计制造周期长，投资大，回报周期长。特别是在当前经济环境下，长期投资面临更多不确定性。

国际制裁风险

华为等公司面临国际制裁，可能影响其供应链和技术发展。路演中提到"国际制裁影响供应链"，这是一个重要风险点。

国际竞争压力

英伟达等国际巨头也在积极推动FP8等低精度技术的发展，国产芯片在这一领域面临激烈竞争。

政策变动风险

虽然当前政策支持国产算力发展，但政策方向可能发生变化，影响行业发展。

标准竞争风险

FP8有多种格式（如E4M3、E5M2、UE8M0等），不同格式的竞争可能导致市场分裂，增加开发成本。

综合结论与投资启示

综合结论

DeepSeek FP8概念目前处于技术验证向商业化过渡的关键阶段。从技术角度看，FP8低精度训练确实能够显著降低算力需求和成本，DeepSeek成功解决了FP8在训练场景中的收敛问题，验证了技术的可行性。从产业化角度看，华为、寒武纪、摩尔线程等国产芯片厂商纷纷布局FP8技术，产品逐步进入测试和量产阶段，商业化进程正在推进。从市场角度看，FP8技术获得了券商和媒体的广泛关注，市场情绪整体偏向乐观。

然而，FP8技术仍面临技术适配难度大、商业化进程不确定、国际竞争激烈等挑战。国产芯片的自主可控程度、FP8技术的实际效果、商业化进程的速度等关键问题仍需进一步验证。因此，DeepSeek FP8概念目前仍具有一定程度的主题炒作特征，但已经开始向基本面驱动阶段过渡。

投资启示

最具投资价值的细分环节

芯片设计：寒武纪、芯原股份等芯片设计公司在FP8技术上有明确布局，产品已进入测试和量产阶段，商业化前景清晰。
算力硬件：华为昇腾、摩尔线程等GPU厂商增加了FP8精度支持，产品性能提升，应用场景明确。
AI软件：中昊芯英等公司专注于DeepSeek-V3系列模型的优化，特别是UE8MO FP8 Scale精度配置，业务逻辑纯粹。

投资策略

长期布局：FP8技术是AI发展的重要趋势，具有长期投资价值，建议长期布局芯片设计、算力硬件等核心环节。
关注催化剂：密切关注华为下一代芯片送测、寒武纪690大规模出货、昇腾910D系列量产等关键催化剂。
风险控制：注意技术风险、商业化风险、政策风险等，合理控制仓位，避免过度集中。

关键跟踪指标

产品出货量

寒武纪690、昇腾910D等支持FP8的芯片出货量是验证商业化进程的关键指标。

技术进展

华为下一代芯片的测试结果、国产芯片FP8技术的实际效果等技术进展是验证技术可行性的关键指标。

应用案例

DeepSeek V3.1在实际应用中的表现、FP8技术在各行业的应用案例是验证技术价值的关键指标。

股票名称	分类	相关性	消息来源	投资逻辑
寒武纪	技术支持	公司2022年定增项目先进工艺平台芯片项目和稳定工艺平台芯片项目(调整后),大模型技术能力的持续提升中,用FP8格式训练代替FP32格式训练,数据存储从32位压缩至8位,有效的提升大模型训练效率	公告	公司通过FP8技术优化大模型训练效率
芯原股份	技术支持	公司在研项目"面向数据中心和GPU-AI计算的高性能图形处理器技术"拟达到目标:支持INT4/INT8/INT16/FP8/FP16/BF16等多种数据格式	公告	研发高性能GPU技术并支持多种数据格式
兆易创新	技术支持	公司的GD5F系列支持FP8混合精度计算,其M87系列支持DDR5ECC纠错,与UE8MOFP8的内存架构协同	网传纪要	产品支持FP8计算和内存架构协同
智微智能	技术支持	公司基于AMD FP8平台开发高算力MINI AIPC产品项目已研发完成,具备本地50 Tops AI算力,产品应用PC行业很多新技术	公告	基于FP8平台开发高算力产品
佳都科技	技术支持	2024年,公司基于FP8混合精度预训练等技术,实现知行大模型训练效率较2024年初提升超150%,并在国产工卡GPU集群上完成了大模型优化训练方法的验证	公告	应用FP8技术提升大模型训练效率
大华股份	技术支持	公司AI工程能力持续优化,为实现大模型的高效训练,多方面优化训练框架:支持FP32和FP8混合精度训练,以在保持模型精度的同时最大化显存利用率和计算效率	公告	优化训练框架支持FP8混合精度
理工能科	技术支持	人工智能战略蓝图由一座公司级算力调度平台、FP8精度671B的LLM大脑和围绕公司核心业务训练的丰富专家模型库组成1+2布局,通用能力层由模型训练和管理平台、智能体生态平台和公司知识库底座三个公共服务构成	公告	构建包含FP8精度计算的AI战略
中兴通讯	技术支持	FP8是针对下一代的国产芯片设计,中兴微在国内芯片设计领域具有重要地位	公开资料	参与下一代国产芯片设计
科德教育	中昊芯英	公司参股的中昊芯英(5.9933%)把DeepSeek-V3系列模型(包括 UE8MO FP8 Scale 精度配置)作为重点优化对象,宣称在计算精度、模型运行稳定性、协同效率等指标上全部达标	网传纪要	参股公司优化FP8模型
艾布鲁	中昊芯英	公司控股子公司杭州星罗中昊科技(持股50%)持有中昊芯英(杭州)科技7.0465%股份	互动	通过子公司持有中昊芯英股份
和而泰	摩尔线程	公司直接持股摩尔线程1.244%,摩尔第四代GPU芯片,增加了FP8精度支持,大幅提升AI算力,公司基于该芯片支撑面向DeepSeek类前沿大模型预训练的万卡集群智算中心解决方案	公告	持股摩尔线程并参与智算中心建设
联美控股	摩尔线程	子公司拉萨联虹对摩尔线程股权投资,初始投资成本为人民币1亿元	公告	直接投资摩尔线程
ST华通	摩尔线程	公司及旗下的产业基金少数股权投资了摩尔线程	调研	通过产业基金投资摩尔线程
盈趣科技	摩尔线程	公司基于战略布局和多元化发展的考虑投资摩尔线程	互动	战略投资摩尔线程
圣元环保	摩尔线程	公司通过认购中原前海的基金份额3亿元人民币间接参与了摩尔线程的投资	互动	通过基金份额间接投资
初灵信息	摩尔线程	公司所认购的北京中移数字经济产业基金为摩尔线程的参股方	互动	通过产业基金参股

DeepSeek FP8概念分析

概念介绍

技术优势

核心观点摘要

概念事件时间轴

核心逻辑与市场认知分析

技术突破

成本下降

国产替代

生态协同

市场热度

谨慎声音

技术成熟度预期差

商业化进程预期差

国产替代程度预期差

成本降低幅度预期差

关键催化剂与未来发展路径

华为下一代芯片发布

寒武纪690大规模出货

昇腾910D系列量产

DeepSeek V3.1广泛应用

技术成熟阶段

生态建设阶段

规模化应用阶段

创新发展阶段

关键里程碑

产业链与核心公司深度剖析

产业链图谱

核心玩家对比

寒武纪

竞争优势

业务进展

潜在风险

华为昇腾

竞争优势

业务进展

潜在风险

摩尔线程

竞争优势

业务进展

潜在风险

中昊芯英

竞争优势

业务进展

潜在风险

潜在风险与挑战

模型收敛问题

精度损失问题

技术适配难度

技术迭代风险

成本控制问题

市场接受度

应用场景限制

投资回报周期

国际制裁风险

国际竞争压力

政策变动风险

标准竞争风险

综合结论与投资启示

综合结论

投资启示

最具投资价值的细分环节

投资策略

关键跟踪指标

产品出货量

技术进展

应用案例

相关股票数据