全球砸了1万亿美元买GPU 95%在闲置
2026年,四大云厂商资本支出7250亿美元。全球数据中心投资奔着1万亿美元去了。
然后看另一个数字。
Cast AI扫了2.3万个企业集群,GPU平均利用率:5%。
一百块里有九十五块在吃灰。而且这三年一年比一年差。
· · ·
55万张卡,11%在干活马斯克的xAI,55万张H100和H200,全球最大的GPU集群之一。
利用率多少?11%。他们内部原话是"低得尴尬"。
剩下49万张卡,差不多150亿美元。在跑什么?空气。
这还没完。有研究员为了保住自己的GPU配额,故意跑无意义的训练任务刷利用率。因为如果系统显示你的卡"闲置",就会被回收。而重新申请可能要等几个月。
所以明明用不上,也要假装在用。
· · ·
为什么这么多卡在吃灰不是技术问题,是三个很俗的原因。
第一,抢。公司不是因为现在要用GPU才买,是因为现在能买到所以先囤着。跟疫情期间抢卫生纸一个心态。供应紧张的时候你不抢,下个月可能就没货了。
第二,不敢还。卡一旦分到手,打死不退回。谁知道下次申请要等多久。宁可让它闲着我也不还,万一哪天要用呢。
第三,卡的脾气浪费了。一个AI任务不是从头到尾吃GPU的。数据预处理吃CPU,训练才吃GPU。但在传统架构里,GPU从任务开始就被独占,CPU干活它也得在旁边等着。有测算说,一个典型训练任务,GPU真正跑满的时间只占15%到25%。剩下的时间在等。
· · ·
但高端卡还是一卡难求这里得分清楚。5%是"已经被买走的企业GPU"。这些卡有主了,只是主人在让他们睡觉。
但没买到卡的人——创业公司、小团队、个人开发者——依然要排队。H200、B200还是稀缺品,台积电封装订到了2027年。
低端卡倒是过剩了。H100按需价从7.57美元跌到3.93。A100不到2美元。国产芯片服务器上架率不到一半。
所以不是"GPU太多了"。是卡在有人手里但没人用,想用的人拿不到。
· · ·
有人利用率做到85%Meta的GPU利用率是83-85%。Salesforce做到接近100%。Canva跑分布式训练100%。
怎么做到的?三件事。不要固定分配,改动态调度。不让GPU独占,改虚拟化共享。用竞价机制自动匹配闲时算力。
腾讯云有个方案能把利用率从35%提到88%。技术现成的。企业不用的原因不是不会,是不敢改——怕出问题、怕背锅、怕改完之后申请不到新卡。
· · ·
这事跟你有什么关系如果只是用ChatGPT聊天,没什么关系。模型免费跟GPU闲置是两码事。
但如果你在搞AI创业、跑训练、或者单纯好奇这帮人天天喊"算力不够"到底怎么回事——这个数据够直白了。
AI行业最大的成本不是模型研发,是95%的GPU在睡觉。
账单是真的。每个季度多烧几百亿。董事会忍不了太久。
等利用率真提上来那天,GPU价格可能会跳崖。
· · ·
数据来源:Cast AI、xAI内部备忘录、HPCwire、VentureBeat。