4月24日,DeepSeek V4预览版上线并开源。华为云几乎同步宣布首发适佩,其MaaS平台提供免部署API调用服务。昇腾超节点全系列已支持该模型,昇腾CANN也做了技术解读。背后关键的硬件,是今年3月刚商用的国产AI推理芯片昇腾950PR。 在FP4低精度推理场景下,这颗芯片算力达到1.56 PFLOPS,单卡性能是英伟达特供版H20的2.87倍。它配备了112GB自研高带宽内存,带宽1.6TB/s,并优化了访存颗粒度,使小算子效率提升4倍。单卡功耗600瓦,比H20高出一截,但单位能耗性能比仍有1.9倍,综合性价比优势明显。大厂订单随即爆发,全年出货目标75万颗,字节跳动一家采购约25万颗,阿里、腾讯各自超过12万颗。集中扫货直接推升芯片价格20%。定价上,高配HBM版每卡7万元,基础DDR版5万元,大约只要英伟达H200的三分之一。昆仑、华鲲振宇等厂商也同步发布了整机产品,液冷方案一并配套。 生态迁移的进展同样受关注。华为CANN框架已兼容95%的英伟达CUDA代码,过去按月计的移植时间,如今缩短到几个钟头。DeepSeek V4团队重写了超过40万个底层算子,完成全栈适佩后,推理速度较初期版本提升35倍,延迟降底42%。deepseek v4代码一开源,寒武纪、摩尔线程等国产芯片也在发布当天完成适配,Day0首发支持开始变成常态。 当然短板仍在。眼下昇腾950PR的优势集中在推理,超大规模训练还要依靠英伟达硬件,训练专用的昇腾950DT芯片计划在年底推出。CANN生态的成熟度、部分小众算子的优化仍需要时间补课。不过,这轮验证已经说明,绝大多数的推理应用可以脱离英伟达高端卡实现自主可控。最极限的预训练场景,会是两边并行互补、逐步替代的过程。国产算力正从“可用”跨进“好用”。
