我发现行业内的AI算力焦虑，比我想象的严重全球AI应用每天消耗的Token数在爆

我发现行业内的AI算力焦虑，比我想象的严重

全球AI应用每天消耗的Token数在爆炸，但真正的瓶颈不是GPU，是HBM，高带宽内存。

坦白讲，我开始没意识到这个问题有多严重。

直到我看到Google Cloud公布的数据：他们平台上AI使用量已达160亿Tokens/分钟，这意味着全球AI应用对算力的需求，正在以指数级增长。但芯片产能，尤其是HBM这种高端存储芯片的产能，根本跟不上。

美光、三星、SK海力士这三大存储巨头，现在把大部分产能从消费电子转向了AI用的HBM。

这导致传统DRAM和NAND的供应也跟着紧张，涨价潮从AI芯片一路蔓延到了整个存储市场。现在AI行业面临一个尴尬的局面，上游芯片厂赚得盆满钵满，下游做应用的却在为成本发愁。

我认识的一个在谷歌做基础设施的朋友说，他们内部已经在探索更激进的模型优化方案。不只是量化、剪枝这些常规操作，而是重新思考模型架构本身。

他说，Transformer架构对内存带宽的需求太贪婪了，每生成一个token，都要把全部参数从HBM里读一遍。模型越大，HBM越贵，成本越不可控。

现在业界确实在找出路。

Mamba、RWKV这些非Transformer架构的模型，核心卖点之一就是降低内存带宽需求。

还有一些公司在探索算力调度的新方案，比如把推理任务动态分配到不同的芯片上，尽量提高利用率。

但说实话，这些方案离大规模商用还有距离。短期内，算力成本的压力只会越来越大。

how i aiai科技ai创造营

0 阅读：5

黄仁勋曾把算力砍掉80%的H20芯片卖给中国，没想到被中国工程师成功破解，结果发