AI幻觉真相:94%错误率惊人,付费模型反而不如免费版?

睿诚评世界 2025-12-01 09:47:31

对比不同人工智能模型的幻觉发生率 你的人工智能总是能给出正确的答案吗?不幸的是,它的“正确性”可能只是一种错觉。 这张信息图表按模型对人工智能的幻觉发生率进行了细分。 ——什么是人工智能幻觉? “人工智能幻觉”指的是这样一种情况:语言模型会将错误或毫无根据的信息当作事实来呈现。这种幻觉之所以出现,是因为标准的训练系统更倾向于奖励猜测行为,而非展示不确定性。可以这样想:在多项选择题考试中,你猜测答案比不作答更有可能答对。 ——人工智能幻觉发生率:最佳与最差模型 为了测量人工智能的幻觉发生率,研究人员向来自顶尖人工智能公司的模型提供了新闻摘录。随后,他们要求这些模型识别出原始文章、发布方以及网址。 值得注意的是,研究人员特意挑选了那些如果将其复制粘贴到常规的谷歌搜索中,能够在前三项搜索结果中找到原始来源的片段。 随后对这些模型的回复进行了准确性检查。下面的图表展示了每个模型出现部分或完全错误回答的频率。 Grok-3 的表现最差,有 94%的时间都出现了幻觉现象。而 Perplexity 则给出了最准确的答案。 值得注意的是,付费模型的表现比免费模型要差。尽管存在频繁的错误,但大多数模型在回答时并未表现出任何的不确定性。 ——对企业领导者而言的风险与影响 对于公司管理层而言,其应吸取的教训十分明确。单纯地将人工智能模型给出的答案当作事实来对待是存在风险的。如果在未进行核实的情况下就假定输出结果是准确的,可能会导致诸多不良后果: *声誉损害 *经济损失 *法律风险 在基于人工智能的系统中,每一项操作都依赖于前一项操作的结果,因此人工智能的误判所产生的后果可能会迅速加剧。这就是为什么领导者需要制定策略,让人类参与其中,验证结果,并使用基于可靠公司数据构建的模型。

0 阅读:0
睿诚评世界

睿诚评世界

感谢大家的关注