AI幻觉真相：94%错误率惊人，付费模型反而不如免费版？

对比不同人工智能模型的幻觉发生率你的人工智能总是能给出正确的答案吗？不幸的是，它的“正确性”可能只是一种错觉。这张信息图表按模型对人工智能的幻觉发生率进行了细分。 ——什么是人工智能幻觉？ “人工智能幻觉”指的是这样一种情况：语言模型会将错误或毫无根据的信息当作事实来呈现。这种幻觉之所以出现，是因为标准的训练系统更倾向于奖励猜测行为，而非展示不确定性。可以这样想：在多项选择题考试中，你猜测答案比不作答更有可能答对。 ——人工智能幻觉发生率：最佳与最差模型为了测量人工智能的幻觉发生率，研究人员向来自顶尖人工智能公司的模型提供了新闻摘录。随后，他们要求这些模型识别出原始文章、发布方以及网址。值得注意的是，研究人员特意挑选了那些如果将其复制粘贴到常规的谷歌搜索中，能够在前三项搜索结果中找到原始来源的片段。随后对这些模型的回复进行了准确性检查。下面的图表展示了每个模型出现部分或完全错误回答的频率。 Grok-3 的表现最差，有 94%的时间都出现了幻觉现象。而 Perplexity 则给出了最准确的答案。值得注意的是，付费模型的表现比免费模型要差。尽管存在频繁的错误，但大多数模型在回答时并未表现出任何的不确定性。 ——对企业领导者而言的风险与影响对于公司管理层而言，其应吸取的教训十分明确。单纯地将人工智能模型给出的答案当作事实来对待是存在风险的。如果在未进行核实的情况下就假定输出结果是准确的，可能会导致诸多不良后果： *声誉损害 *经济损失 *法律风险在基于人工智能的系统中，每一项操作都依赖于前一项操作的结果，因此人工智能的误判所产生的后果可能会迅速加剧。这就是为什么领导者需要制定策略，让人类参与其中，验证结果，并使用基于可靠公司数据构建的模型。

0 阅读：0

AI幻觉真相：94%错误率惊人，付费模型反而不如免费版？

我感觉，现在美团的管理层，肯定挺头大的。不是因为市场份额从85%掉到65%，

数码闲聊站华为Mate80ProMaxMate字样!看着有人拿着华为M

那群人还是要把这口锅给华为扣上……

这专利还是牛逼最近看到很群里很多人都在说被ota了，有两天没开车了，就好奇去看

真替华为高兴，一步步从绝境中走出来，芯片从无到有，从有到强，还有些人嘲笑华为ma

不管是谁抄袭谁！起码目前这个设计风格已经被大众认可！无论是8000mAh的荣

华为Mate70Air也卖的一般，这下基本所有品牌的Air都凉了半截，没一款成

完蛋了，按照华为新的麒麟一旦出现的节奏，接下来麒麟9030的机型将会相继出现：