大模型的记忆能力现在完全靠内存的大小决定,也就是上下文的大小决定了当前大模型的智

孤鸿泽 2026-04-18 21:14:17

大模型的记忆能力现在完全靠内存的大小决定,也就是上下文的大小决定了当前大模型的智能水平。这与去年我们玩小模型硬吃显存的逻辑是不一样的。现在经过量化的小模型已经能稳定地高效产出tokens。

我在本地的gemma4上下文测试时一直对话,上下文的用量除着对话不断抬升内存用量,直到拉满然后爆炸了。从内存用量一半到爆炸,GPU显存几乎纹丝不动。也就是说对显存的需求被量化的压缩给控制住了。

硬件从GPU的算力,发展到了存储容量的记忆力比拼。所以各大厂商都在无限堆推理上下文内存。

但对内存的依赖应该在算法上可以优化,将上下文进行关键压缩和向SSD固化,需要时再对内存激活。不过内存厂家也是SSD厂家。这就是为什么最近半年多,内存被拉冒烟的根本原因。

当LLM的算法遇到scaling law的天花板,内存大小决定了智能化程度。注意算法扰动,如果真出现数倍级压缩算法,那么内存的预期就会被暴击。因为现在认为内存决定能力还看不到天花板。

我们迫切需要内存上下文量化技术和内存版MOE的出现。

0 阅读:1
孤鸿泽

孤鸿泽

感谢大家的关注