我发现行业内的AI算力焦虑,比我想象的严重
全球AI应用每天消耗的Token数在爆炸,但真正的瓶颈不是GPU,是HBM,高带宽内存。
坦白讲,我开始没意识到这个问题有多严重。
直到我看到Google Cloud公布的数据:他们平台上AI使用量已达160亿Tokens/分钟,这意味着全球AI应用对算力的需求,正在以指数级增长。但芯片产能,尤其是HBM这种高端存储芯片的产能,根本跟不上。
美光、三星、SK海力士这三大存储巨头,现在把大部分产能从消费电子转向了AI用的HBM。
这导致传统DRAM和NAND的供应也跟着紧张,涨价潮从AI芯片一路蔓延到了整个存储市场。现在AI行业面临一个尴尬的局面,上游芯片厂赚得盆满钵满,下游做应用的却在为成本发愁。
我认识的一个在谷歌做基础设施的朋友说,他们内部已经在探索更激进的模型优化方案。不只是量化、剪枝这些常规操作,而是重新思考模型架构本身。
他说,Transformer架构对内存带宽的需求太贪婪了,每生成一个token,都要把全部参数从HBM里读一遍。模型越大,HBM越贵,成本越不可控。
现在业界确实在找出路。
Mamba、RWKV这些非Transformer架构的模型,核心卖点之一就是降低内存带宽需求。
还有一些公司在探索算力调度的新方案,比如把推理任务动态分配到不同的芯片上,尽量提高利用率。
但说实话,这些方案离大规模商用还有距离。短期内,算力成本的压力只会越来越大。
how i aiai科技ai创造营
