斯坦福新作：数据过滤的惨痛教训

智能机器之心 2026-05-24 04:58:13

大模型圈一直有个共识：「垃圾进，垃圾出」（Garbage in， Garbage out）。为了洗出高质量的预训练数据，各大团队不惜耗费巨额算力和人力，构建复杂的分类器和规则。斯坦福团队最新发布了一篇论文《A Bitter Lesson for Data Filtering》，直指在足够大的计算规模下，最好的数据过滤器就是「没有过滤器」。 🔆核心颠覆性发现 1️⃣ 大模型对「垃圾数据」有神级耐受力实验表明，当模型参数量足够大（>330M）且算力充沛时，直接在未经过滤的互联网原始数据（Raw Data）上训练，最终的 Loss 和表现，反而反超了那些在精细过滤数据上训练的模型！ 2️⃣ 「脏数据」里藏着金子传统过滤器在剔除噪声的同时，把大量有价值的「边际数据」（Marginal Data）也误杀了。这些看起来不够完美的网页，其实包含着丰富的语言多样性和长尾知识。大模型不仅不怕这些噪声，还能把它们转化为泛化能力。 3️⃣ 别怕谣言和错误事实有人担心不过滤会导致模型学坏？论文分析发现，互联网海量数据中，主流依然是正确事实。大模型强大的统计学习能力，会自动在海量数据中把噪声「平均化」或对冲掉。它自己，就是一个最顶级的隐式过滤器。这篇论文的名字，显然是在致敬 AI 巨擘 Richard Sutton 那篇著名的《苦涩的教训》（The Bitter Lesson）。 AI 历史无数次证明，人类试图通过手工特征、精细规则、精选数据去「教」AI 走捷径的努力，最终都会在绝对的「算力 + 规模（Scale）」面前溃败。未来超大规模预训练，可能不再需要复杂的重度数据清洗管道，直接上原始（或极弱过滤）数据池反而是更优解。「大力不仅能出奇迹，大力还能洗净数据。」你怎么看这次的数据范式颠覆？

0 阅读：0

智能机器之心

感谢大家的关注

作者最新文章

1

DeepSeek V4-Pro API 永久降价！！！

2

AI 科技重磅推荐！顶级期刊Daedalus最新期

3

斯坦福新作：数据过滤的惨痛教训

4

连微软都用不起 Token 了？另有隐情

5

这是新程序员不会有的感觉....😂

6

ChatGPT 可以直接在PPT里面用了，官方插件

7

Bengio 新论文：生成式递归推理

8

顶级期刊Daedalus AI科学特刊，直接领取！

9

遇到感情问题，别找 AI 要答案！

10

Cohere新模型，企业级Agentic强模型！

热门分类

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

3

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

4

我也越来越像个“旁观者”……用过功能机、翻盖机，也见过智能机怎么一步步把生活

5

折叠屏这些年一直被吐槽“能用但不好用”，所以到底是不好用还是做不好？这次华为

6

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

7

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

8

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

9

兄弟们，摩托罗拉motorazr70Ultra正式发布，直接7499起

10

马斯克转发了和雷总的合影，不过这张图肯定是AI生成的，真图还在雷总手机里呢。

科技最新文章

1

K80至尊版虽然数值强度贼高，但外观这块我还是更喜欢K70至尊版不过K70至尊虽

2

万万没想到618荣耀诚意拉满，荣耀Magic8Pro直接狂降1500，降价力度

3

纠结入手荣耀500，还是坐等荣耀600？一文讲透选购逻辑荣耀600上市脚步

4

华为nova16网传6.1发布，荣耀、OV、华为线下颜值中端线发布日期好聚集啊！

5

我想了这么多年都没想明白...为什么iPhone的保值率这么高？可以说

6

刚刚！国家正式出手——中国AI必须装上“中国心脏”，国产AI芯片要大变天！5月2

7

安克推出两款耳机新品，拥有获得吉尼斯世界纪录认证的全球通话最清晰，定价1399元

8

亮屏时间9个多小时，使用了尽30小时，电量还有60%，追剧看短视屏8个半小时用了

9

这才是真正的BOSS直聘，世界首富亲自下场招人

10

万万没想到[捂脸哭]荣耀600Pro还未发布就迎来了自家兄弟的“背刺”，这价格直