低精度浮点数格式推动国产AI训练推理技术突破
DeepSeek FP8是一种低精度浮点数格式,用于大模型的训练和推理。FP8(8位浮点数)相比传统的FP16(16位浮点数)和FP32(32位浮点数)可以大幅降低算力需求、显存占用和通信带宽。
UE8M0是FP8的一种特殊格式,无符号,8位指数,0位尾数,只能表示2的n次方,这种格式可以将神经网络中的乘法运算转化为更简单的加法运算,大幅提升计算效率。
DeepSeek FP8代表了国产AI训练推理技术的重要突破,通过低精度混合训练显著降低算力需求与成本,同时推动国产芯片生态协同发展。目前该概念处于技术验证向商业化过渡的关键阶段,核心驱动力在于算力成本下降与国产替代加速,未来潜力在于构建完整的国产AI软硬件生态体系。
DeepSeek成功解决了FP8在训练场景中容易导致模型不收敛的问题,通过细粒度控制低精度方法和底层指令选择,实现了FP8在大规模模型训练中的可行性和有效性。这一技术突破大幅降低了训练成本,DeepSeek V3的训练成本约为557万美金,相比其他"数亿美金训练成本"的模型具有极大成本优势。
FP8混合精度训练通过降低计算和存储需求、提高训练速度,直接推动训练成本降低。相比FP16,FP8可以节约一半算力/显存容量/通信带宽,相比FP32能节约3/4。UE8M0格式的乘法比其他FP8快数倍,且明显节约芯片面积。这种成本下降使得更多企业能够负担大模型的训练和部署,推动了AI技术的普及。
UE8M0 FP8是针对即将发布的下一代国产芯片设计的,这一技术路径与国产芯片的发展方向高度契合。华为、寒武纪、摩尔线程等国产芯片厂商纷纷宣布支持FP8精度,有望缩小与英伟达等国际巨头的差距,推动国产算力的自主可控。
DeepSeek通过DeepGEMM开源库公开了FP8的实现,促进了整个生态的发展。同时,多家国产芯片厂商、软件厂商和硬件厂商围绕FP8形成协同效应,共同推动国产AI生态的完善。
从新闻和研报的密集度来看,市场对DeepSeek FP8概念的关注度较高,情绪整体偏向乐观。2025年8月21日DeepSeek发布V3.1版本后,多家券商迅速发布研报分析其影响,中信计算机、民生电子等机构明确看好"国产算力与国产模型合力支撑下的中国AI产业"。
路演中提到,国产芯片支持FP8的厂商较少,即使支持,迁移DeepSeek的优化措施也非常困难。此外,FP8在训练场景中的应用仍面临技术挑战,如上溢和下溢问题,需要通过DBC(模型缩放、变量缩放及GPU调度优化)等技术解决。这些因素导致部分市场参与者对FP8技术的实际应用效果持保留态度。
研报和新闻中普遍强调FP8技术的优势和应用前景,但路演中显示FP8在训练场景中容易导致模型不收敛,国产芯片支持FP8的厂商较少,即使支持,迁移DeepSeek的优化措施也非常困难。这表明FP8技术的实际应用难度可能被市场低估。
研报和新闻中普遍看好FP8技术的商业化前景,但路演中提到华为下一代芯片(可能命名为910x)将支持FP8精度,预计第四季度送测厂商,寒武纪690已顺利流片并进入到云商测试,但大规模商业化应用仍需时间。这表明FP8技术的商业化进程可能比市场预期的要慢。
研报和新闻中普遍强调FP8技术对国产算力的推动作用,但路演中提到国产GPU架构自主可控问题:计算公司公告称"力争解决",实际未完全自主(采用Imagination IP)。这表明国产芯片的自主可控程度可能被市场高估。
研报和新闻中普遍强调FP8技术可以大幅降低训练成本,但路演中提到DeepSeek训练一次的成本约为OpenAI的2%左右(并非某些自媒体所说的1%)。这表明FP8技术降低成本的幅度可能被市场夸大。
路演中提到华为下一代芯片(可能命名为910x)将支持FP8精度,预计第四季度送测厂商。这一事件将是推动DeepSeek FP8概念发展的重要催化剂。
民生电子研报提到寒武纪690已顺利流片并进入到云商测试,反馈较好,预计整体出货25年20W,26年50W张。寒武纪690的大规模出货将验证FP8技术在商业应用中的可行性。
民生电子研报提到昇腾910D及920系列支持FP8,当前910D已成功回片进入到云商测试,预计910D系列26年30W张出货。昇腾910D系列的量产将进一步推动FP8技术的普及。
DeepSeek V3.1使用了UE8M0 FP8 Scale的参数精度,如果这一版本在市场上获得广泛应用,将验证FP8技术的实际效果,推动更多厂商采用这一技术。
FP8技术将逐步成熟,更多的国产芯片厂商将支持FP8精度,软件框架和工具链将逐步完善。
FP8技术将形成完整的生态体系,包括芯片、软件框架、开发工具、应用等多个环节。
FP8技术将实现规模化应用,成为AI训练和推理的主流技术之一。国产算力将实现自主可控。
FP8技术将进一步创新和发展,可能出现更低精度但更高效率的技术。国产AI技术将实现全面领先。
寒武纪580及下一代产品690均支持FP8,690已顺利流片并进入到云商测试,反馈较好。公司在AI芯片领域有深厚积累,技术领先。
预计690整体出货25年20W,26年50W张,显示出良好的商业化前景。
芯片设计制造周期长,投资大,回报周期长;国际竞争激烈,面临英伟达等巨头的压力。
华为在AI领域有全栈布局,从芯片到软件框架到应用场景,生态完整。910D及920系列支持FP8,910D已成功回片进入到云商测试。
预计910D系列26年30W张出货,商业化前景良好。华为生态软件适配更优,在国产芯片中具有明显优势。
国际制裁影响供应链;路演中提到当前910B库存积压,主要用于推理而非训练,产品结构需要调整。
第四代GPU芯片增加了FP8精度支持,大幅提升AI算力。融资70亿,软件生态是优势。
基于该芯片支撑面向DeepSeek类前沿大模型预训练的万卡集群智算中心解决方案,应用场景明确。
路演中提到"技术门槛低(对比计算、汉博等竞品)",技术优势可能不明显;GPU领域竞争激烈,面临英伟达、AMD等国际巨头的压力。
把DeepSeek-V3系列模型(包括UE8MO FP8 Scale精度配置)作为重点优化对象,宣称在计算精度、模型运行稳定性、协同效率等指标上全部达标,技术专注度高。
通过科德教育、艾布鲁等上市公司获得资金支持,发展前景良好。
规模相对较小,资源有限;技术实力与寒武纪、华为等巨头相比有差距。
路演中提到,FP8在训练场景中容易导致模型不收敛,因此难以广泛应用。虽然DeepSeek成功解决了这一问题,但国产芯片使用FP8训练时,能否实现模型收敛仍存在不确定性。
FP8相比FP16和FP32会有精度损失,在某些对精度要求高的场景可能不适用。路演中提到FP8和BF16精度在训练中效果接近(差异仅为0.25%),但这一差异在某些应用场景可能是关键的。
FP8技术需要与芯片硬件、软件框架等多方面适配,这一过程复杂且耗时。路演中提到,即使国产芯片支持FP8,迁移DeepSeek的优化措施也非常困难。
AI技术发展迅速,FP8可能只是过渡技术,未来可能出现更低精度(如FP6、FP4)但更高效率的技术,使当前投资面临淘汰风险。
虽然FP8技术可以降低训练和推理成本,但芯片设计制造本身成本高昂,如何在保证性能的同时控制成本是一个挑战。
FP8技术是一种新技术,市场接受度需要时间培养。特别是在企业级市场,客户对新技术往往持谨慎态度。
FP8技术虽然在训练和推理中具有优势,但在某些对精度要求高的场景可能不适用,这限制了其应用范围。
芯片设计制造周期长,投资大,回报周期长。特别是在当前经济环境下,长期投资面临更多不确定性。
华为等公司面临国际制裁,可能影响其供应链和技术发展。路演中提到"国际制裁影响供应链",这是一个重要风险点。
英伟达等国际巨头也在积极推动FP8等低精度技术的发展,国产芯片在这一领域面临激烈竞争。
虽然当前政策支持国产算力发展,但政策方向可能发生变化,影响行业发展。
FP8有多种格式(如E4M3、E5M2、UE8M0等),不同格式的竞争可能导致市场分裂,增加开发成本。
DeepSeek FP8概念目前处于技术验证向商业化过渡的关键阶段。从技术角度看,FP8低精度训练确实能够显著降低算力需求和成本,DeepSeek成功解决了FP8在训练场景中的收敛问题,验证了技术的可行性。从产业化角度看,华为、寒武纪、摩尔线程等国产芯片厂商纷纷布局FP8技术,产品逐步进入测试和量产阶段,商业化进程正在推进。从市场角度看,FP8技术获得了券商和媒体的广泛关注,市场情绪整体偏向乐观。
然而,FP8技术仍面临技术适配难度大、商业化进程不确定、国际竞争激烈等挑战。国产芯片的自主可控程度、FP8技术的实际效果、商业化进程的速度等关键问题仍需进一步验证。因此,DeepSeek FP8概念目前仍具有一定程度的主题炒作特征,但已经开始向基本面驱动阶段过渡。
寒武纪690、昇腾910D等支持FP8的芯片出货量是验证商业化进程的关键指标。
华为下一代芯片的测试结果、国产芯片FP8技术的实际效果等技术进展是验证技术可行性的关键指标。
DeepSeek V3.1在实际应用中的表现、FP8技术在各行业的应用案例是验证技术价值的关键指标。
| 股票名称 | 分类 | 相关性 | 消息来源 | 投资逻辑 |
|---|---|---|---|---|
| 寒武纪 | 技术支持 | 公司2022年定增项目先进工艺平台芯片项目和稳定工艺平台芯片项目(调整后),大模型技术能力的持续提升中,用FP8格式训练代替FP32格式训练,数据存储从32位压缩至8位,有效的提升大模型训练效率 | 公告 | 公司通过FP8技术优化大模型训练效率 |
| 芯原股份 | 技术支持 | 公司在研项目"面向数据中心和GPU-AI计算的高性能图形处理器技术"拟达到目标:支持INT4/INT8/INT16/FP8/FP16/BF16等多种数据格式 | 公告 | 研发高性能GPU技术并支持多种数据格式 |
| 兆易创新 | 技术支持 | 公司的GD5F系列支持FP8混合精度计算,其M87系列支持DDR5ECC纠错,与UE8MOFP8的内存架构协同 | 网传纪要 | 产品支持FP8计算和内存架构协同 |
| 智微智能 | 技术支持 | 公司基于AMD FP8平台开发高算力MINI AIPC产品项目已研发完成,具备本地50 Tops AI算力,产品应用PC行业很多新技术 | 公告 | 基于FP8平台开发高算力产品 |
| 佳都科技 | 技术支持 | 2024年,公司基于FP8混合精度预训练等技术,实现知行大模型训练效率较2024年初提升超150%,并在国产工卡GPU集群上完成了大模型优化训练方法的验证 | 公告 | 应用FP8技术提升大模型训练效率 |
| 大华股份 | 技术支持 | 公司AI工程能力持续优化,为实现大模型的高效训练,多方面优化训练框架:支持FP32和FP8混合精度训练,以在保持模型精度的同时最大化显存利用率和计算效率 | 公告 | 优化训练框架支持FP8混合精度 |
| 理工能科 | 技术支持 | 人工智能战略蓝图由一座公司级算力调度平台、FP8精度671B的LLM大脑和围绕公司核心业务训练的丰富专家模型库组成1+2布局,通用能力层由模型训练和管理平台、智能体生态平台和公司知识库底座三个公共服务构成 | 公告 | 构建包含FP8精度计算的AI战略 |
| 中兴通讯 | 技术支持 | FP8是针对下一代的国产芯片设计,中兴微在国内芯片设计领域具有重要地位 | 公开资料 | 参与下一代国产芯片设计 |
| 科德教育 | 中昊芯英 | 公司参股的中昊芯英(5.9933%)把DeepSeek-V3系列模型(包括 UE8MO FP8 Scale 精度配置)作为重点优化对象,宣称在计算精度、模型运行稳定性、协同效率等指标上全部达标 | 网传纪要 | 参股公司优化FP8模型 |
| 艾布鲁 | 中昊芯英 | 公司控股子公司杭州星罗中昊科技(持股50%)持有中昊芯英(杭州)科技7.0465%股份 | 互动 | 通过子公司持有中昊芯英股份 |
| 和而泰 | 摩尔线程 | 公司直接持股摩尔线程1.244%,摩尔第四代GPU芯片,增加了FP8精度支持,大幅提升AI算力,公司基于该芯片支撑面向DeepSeek类前沿大模型预训练的万卡集群智算中心解决方案 | 公告 | 持股摩尔线程并参与智算中心建设 |
| 联美控股 | 摩尔线程 | 子公司拉萨联虹对摩尔线程股权投资,初始投资成本为人民币1亿元 | 公告 | 直接投资摩尔线程 |
| ST华通 | 摩尔线程 | 公司及旗下的产业基金少数股权投资了摩尔线程 | 调研 | 通过产业基金投资摩尔线程 |
| 盈趣科技 | 摩尔线程 | 公司基于战略布局和多元化发展的考虑投资摩尔线程 | 互动 | 战略投资摩尔线程 |
| 圣元环保 | 摩尔线程 | 公司通过认购中原前海的基金份额3亿元人民币间接参与了摩尔线程的投资 | 互动 | 通过基金份额间接投资 |
| 初灵信息 | 摩尔线程 | 公司所认购的北京中移数字经济产业基金为摩尔线程的参股方 | 互动 | 通过产业基金参股 |