大模型的记忆能力现在完全靠内存的大小决定，也就是上下文的大小决定了当前大模型的智

孤鸿泽 2026-04-18 21:14:17

大模型的记忆能力现在完全靠内存的大小决定，也就是上下文的大小决定了当前大模型的智能水平。这与去年我们玩小模型硬吃显存的逻辑是不一样的。现在经过量化的小模型已经能稳定地高效产出tokens。

我在本地的gemma4上下文测试时一直对话，上下文的用量除着对话不断抬升内存用量，直到拉满然后爆炸了。从内存用量一半到爆炸，GPU显存几乎纹丝不动。也就是说对显存的需求被量化的压缩给控制住了。

硬件从GPU的算力，发展到了存储容量的记忆力比拼。所以各大厂商都在无限堆推理上下文内存。

但对内存的依赖应该在算法上可以优化，将上下文进行关键压缩和向SSD固化，需要时再对内存激活。不过内存厂家也是SSD厂家。这就是为什么最近半年多，内存被拉冒烟的根本原因。

当LLM的算法遇到scaling law的天花板，内存大小决定了智能化程度。注意算法扰动，如果真出现数倍级压缩算法，那么内存的预期就会被暴击。因为现在认为内存决定能力还看不到天花板。

我们迫切需要内存上下文量化技术和内存版MOE的出现。

0 阅读：1

感谢大家的关注

作者最新文章

1

大模型的记忆能力现在完全靠内存的大小决定，也就是上下文的大小决定了当前大模型的智

2

部署完本地量化gemma4 openclaw调用本地算力token，实现了联网搜

3

现在的很多AI桌面工具会用到nodejs，在安装时，千万不要勾选这个。nodej

4

伊朗遭不住海上封锁，还是妥协了，一个小国还是挑不动老美这个巨兽。老哈梅内伊白死，

5

aipc直播时讲过这个二线小热点。

6

中国代表了最高的无人月返技术，嫦娥五号实现了月面软着陆，月表起飞，月球轨道交会对

7

战争中有一句名言“战绩可以骗人，但战线不会”，这句话放到登月上是一样的“证据可以

8

一个小经验，买了主板和CPU装机以后第一件事是把BIOS更新了。因为主板BIOS

9

美国不是偶尔撒谎，而是偶尔说真话，整个国家机器、意识形态、舆论体系，完全建立在谎

10

不谈69年登月，只谈现在。阿尔忒弥斯计划之前说2024年登月，去年改到2028年

热门分类

财经TOP

1

这就是多年后土葬的结果

2

事实证明！嫁人一定要嫁潜力股。

3

生理性厌恶金融性喜欢

4

月薪5000，能把她追到手吗？

5

4月16日游资龙虎榜

6

怪不得都说中石油是神仙单位

7

事实证明，嫁人一定要嫁潜力股！

8

穷人买不起，富人看不上

9

去年10家房企债务重组及净利润情况一览。

10

贵州茅台半夜发业绩，不出意外的暴雷了！2025年营收入688.38亿元，同比下降

财经最新文章

1

印度专坑中国企业屡屡得手外资连续20多天从印度股市往外撤，钱都快撤没了，短短几

2

炸锅了！中国硬气否决中俄天然气2号线，普京两大方案全被拒先说说普京提的两个方

3

我建议买退市股，退市前那种，买个100股，像这种去三板1毛钱，一万块钱可以买10

4

主力连续抢筹，这些底部倍量个股将迎来阶段行情九阳股份：是一家专注于健康饮食电

5

4月18日热门股排名！1、三安光电：收购终止、光通信（首板）2、圣阳股份：固态电

6

4月18日。星期六。沪深热门股票。巨力索具。近期有量。震荡上扬。通宇通讯。

7

4月18日。星期六。大智慧热门榜。密瑞科技。次新股票。震荡上扬。新鹏股份。

8

9

天雷滚滚，11倍半导体大牛股暴雷，2.36万股东的天塌了，现在想销户的心都有了，

10

一觉醒来，没想到金价再次失控了！我前脚刚按1059的均价拿了60克，4月1