我发现行业内的AI算力焦虑,比我想象的严重全球AI应用每天消耗的Token数在爆

老金能量站 2026-04-24 18:16:59

我发现行业内的AI算力焦虑,比我想象的严重

全球AI应用每天消耗的Token数在爆炸,但真正的瓶颈不是GPU,是HBM,高带宽内存。

坦白讲,我开始没意识到这个问题有多严重。

直到我看到Google Cloud公布的数据:他们平台上AI使用量已达160亿Tokens/分钟,这意味着全球AI应用对算力的需求,正在以指数级增长。但芯片产能,尤其是HBM这种高端存储芯片的产能,根本跟不上。

美光、三星、SK海力士这三大存储巨头,现在把大部分产能从消费电子转向了AI用的HBM。

这导致传统DRAM和NAND的供应也跟着紧张,涨价潮从AI芯片一路蔓延到了整个存储市场。现在AI行业面临一个尴尬的局面,上游芯片厂赚得盆满钵满,下游做应用的却在为成本发愁。

我认识的一个在谷歌做基础设施的朋友说,他们内部已经在探索更激进的模型优化方案。不只是量化、剪枝这些常规操作,而是重新思考模型架构本身。

他说,Transformer架构对内存带宽的需求太贪婪了,每生成一个token,都要把全部参数从HBM里读一遍。模型越大,HBM越贵,成本越不可控。

现在业界确实在找出路。

Mamba、RWKV这些非Transformer架构的模型,核心卖点之一就是降低内存带宽需求。

还有一些公司在探索算力调度的新方案,比如把推理任务动态分配到不同的芯片上,尽量提高利用率。

但说实话,这些方案离大规模商用还有距离。短期内,算力成本的压力只会越来越大。

how i aiai科技ai创造营

0 阅读:5
老金能量站

老金能量站

感谢大家的关注