纵观资讯 纵观资讯

当前位置: 首页 » 实时追踪 »

AI真的有幻觉?会胡编吗?

怎么才能用好如今“百模大战”之下各种层出不穷的AI模型?关键就是要分清楚它们所处的层次,以匹配你想达到的目的。

有位著名律所的著名律师,过年期间趁着假期花了相当长的时间试用和比较了各种当红的AI大模型,主要是DeepSeek、豆包和ChatGPT,然后写了篇很长的长微博(4000多字!),讲自己的各种使用体验和基于这些体验的思考,很是认真,但也很暴露出当下非AI从业者——甚至也包括相当一部分AI从业者对于AI,特别是大语言模型的基本原理有着很深的误解,这种误解与人的自我认知有关,因而很容易陷进去,又很不容易跳出来。我们先来看一段博文:

从ChatGPT-3开始,我就发现,问一些问题,ChatGPT选择胡说八道。这个问题到现在升级到了o3 mini了,也没有改变。DeepSeek也是同样。官网的DeepSeek R1还好。我自己在MacBook Air上部署了一个DeepSeek R1的7B蒸馏版本。问了一个我确定知道答案的问题,即请介绍金杜律师事务所,这个7B版本给我完整地编出了一个异时空的金杜律师事务所,甚至还编出了一个根本不存在的金杜律师事务所的网址。

我知道4.7G大小的离线版本,不可能有数据库存这么多知识,但是它至少应该告诉我,它不知道。然而,它选择了胡编。我知道这算是一个极端条件下的测试,但却很能说明问题。在本地部署,没有联网的情况下,AI胡编不可怕,因为用户本身就对AI的知识检索与知识储备没有太多预期,但是如果是正规投入使用的AI胡编,那就吓人了。ChatGPT- 4o,就曾经胡编了所有红圈所主任的名字,没有一个是对的……

这种情况下,用户可咋把AI当搜索引擎用呀。

所以,AI要大规模投入严肃的商业化使用,开发者必须解决AI胡编问题。你可以不知道答案,但不能编造答案。撒谎是很可怕的,尤其是作为生产力工具的时候撒谎,那会出大事的。

这里,DeepSeek其实提供了一个很好的解决方案,就是向用户完整展示思考过程,我建议未来AI如果真的投入商用,一定要有法定义务向客户公开其思考过程,并提供信息来源的依据,比如网页链接,等等。

这段博文,貌似思考很多,很深入,却在根本上反映出一个文科生在面对AI时特别容易陷入的思维误区,就是真的并且强烈地把AI拟人化。当你说ChatGPT在“胡编”在“撒谎”的时候,就已经证明你完全搞错了大语言模型的原理。

大语言模型的本质是统计和计算

目前的生成式AI,本质上非常简化地说——就是把上千亿个参数变量在高维数学空间里表示为向量(你可以粗略地把向量理解为坐标系中一个有大小和方向的量),并通过多层神经网络对权重等的前馈和反馈计算,最准确地(比股票K线图之类二维曲线准确得多)根据概率推算出下一个词——严格地说是下一个token,也就是一个被标记的单位,它可以是一个或几个字母,也可以是两三个词的组合,而不仅仅是我们所理解的用以构造有意义的文本的“单词”。正如超级大牛斯蒂芬·沃尔弗拉姆在他那本《这就是ChatGPT》被山姆·奥特曼本人推崇为“对ChatGPT原理的最佳解释”中所说:

“值得注意和出乎意料的是,这个过程可以成功地产生与互联网、书籍等中的内容‘相似’的文本。ChatGPT不仅能产生连贯的人类语言,而且能根据‘阅读’过的内容来‘循着提示说一些话’。它并不总是能说出‘在全局上有意义’(或符合正确计算)的话,因为……它只是在根据训练材料中的内容‘听起来像什么’来说出‘听起来正确’的话……ChatGPT‘仅仅’是从其积累的‘传统智慧的统计数据’中提取了一些‘连贯的文本线索’。但是,结果的类人程度已经足够令人惊讶了。正如我所讨论的那样,这表明了一些至少在科学上非常重要的东西:人类语言及其背后的思维模式在结构上比我们想象的更简单、更‘符合规律’。ChatGPT已经隐晦地发现了这一点……在某种程度上,它是一个极好的例子,说明了大量简单的计算元素可以做出非凡、惊人的事情。它也为我们提供了2000多年以来的最佳动力,来更好地理解人类条件(human condition)的核心特征——人类语言及其背后的思维过程——的本质和原则。”

因此对大语言模型来说不存在“胡编”的问题,也不是真的产生了所谓“幻觉”,这些都只不过是拟人化的比喻,却像很多比喻那样,会严重误导我们。模型给到你的答案就是模型计算后得出的结论,至于这结论对你来说是对还是错、真还是假,模型本身毫不关心,更不会故意去“编”、去“撒谎”。

就像AlphaGo的“神之一手”,在任何人类围棋高手看来都是乱下,只有当李世石真的败给这一手,人们才会承认AI凭借模型和算力,远远超出了人脑的计算强度。我常常说,在AI给出明显“错误”的答案时,我们不要急着骂声“胡编”就撇撇嘴把它扔在一边,首先应该做的是反思我们自己的判断,有可能长远来说,那个看上去错的答案才是真正正确的,或至少是更具实践价值的。因为AI正是在对海量语料数据(注意,这里的数据是彻底打散的“纯数据”,因为它们全都被向量化了,而不是依旧“可理解”的单词、句子或文章段落,如果仍在后者层面上进行,那就是高阶搜索而非真正的AI)进行“统计”后得出的结论,换句话说,不管我们在明面上把什么看作是“正确”的,AI的结论往往反映的,要么是在可计算范围内怎么说怎么做最优,要么是我们实际上最经常怎么说和怎么做。

只是大多数情况下,我们会用“高雅”的形容词所隐含的文化或价值判断去抹除事物的实相,就像把一手我们暂时不能理解的棋称为“愚形”——愚形之所以是愚形,是因为在两个算力相去不远,思维模式也大同小异的人类之间,这么做的确效率很低,但这并不意味着对能比你多算几十步几百步的智力来说,它也是愚形。

AI模型的n个层次及其运用

顺便说一下,如今的AI模型其实分成好几个层次,但大多数人会把它们混为一谈,比如你用o1或o3解出了很难的数学题,你就以为它是比GPT-4更高级的模型,但其实它们处在完全不同的层次上——GPT-4是基础模型,o3是推理模型(而豆包、Kimi之类则主要是高阶搜索),推理模型一时的好用、精准,远不如基础模型的进化来得重要。关键是,目前流行的推理模型,其核心大多是在基础模型中加入了“思维链”,让其看上去更准确,或是更能“像人一样思考”,甚至能给出思考过程,这足以迷惑绝大多数依然深陷拟人化思维的人。

什么是“思维链”?其实和它看上去高大上的名字相反,本质上它只是一种对复杂问题的拆解方式。也就是说,针对一个很复杂的问题,由于变量之间的扰动和循环反馈过多,会导致大模型对下一个token的概率预测产生过大的偏差,这时候,如果能把一个复杂问题拆分成几个相对简单的问题,那么对每一个简单问题中下一个token的概率预测就会准确得多,再合并起来,其答案看上去也会“合理”得多。

所谓的AI“慢思考”,只是你要给它时间把问题拆分,然后对拆分后的问题逐个进行概率计算,再通过神经网络合并计算出最终结果——或许还要再来回多搞几次以提高准确率。沃尔弗拉姆曾指出ChatGPT的一个不足:

“甚至与典型的算法计算不同,ChatGPT内部没有‘循环’或‘重新计算数据’。这不可避免地限制了其计算能力——即使与当前的计算机相比也是如此,更谈不上与大脑相比了。”

思维链做的最重要的事情之一,可能就是补上了这个缺。

“慢思考”不是真的在进行大量严格的推理。因此所谓推理模型,依然不是真正像人那样进行逻辑推理。实际上,“人的推理”本身也是一个非常模糊的说法,沃尔弗拉姆就举过一个例子:

“找一张猫的图片看看,并问自己:‘为什么这是一只猫?’你也许会说‘我看到了它尖尖的耳朵’,等等。但是很难解释你是如何把这个图像识别为一只猫的。你的大脑不知怎么就想明白了。”

在我们貌似根据一堆细节推理出那是一只猫的过程中,实际上做的大多数事情并不是推理,而是计算,我们所以为的推理,基本上只是对复杂计算过程的一种“人性化”的简化。

推理模型的底层依然是计算而非推理,只不过通过拆分,让答题过程看上去比较符合我们的预期而已。所以AI发展的核心不是o1、o3这种看上去准确率高得多的所谓推理模型,也不是DeepResearch这种深度思考/研究模型,它们都只不过是针对普通人的思维误区,策略性地开发出来让大家可以尽快上手一用的权宜工具,哪怕它们再好用,也只是些过渡性的产品。真正重要的永远是基础模型,GPT-1、2、3、3.5、4、4.5乃至将来的5系列。这不,OpenAI的GPT-4.5一出来,马上就夺回了被马斯克的Grok3占据了一个礼拜的王座。

怎么才能用好如今“百模大战”之下各种层出不穷的AI模型?关键就是要分清楚它们所处的层次,以匹配你想达到的目的。如果你只是想要替代手动搜索,就像一开始那位律师搜索律所的相关信息,你一定不要用推理模型,用豆包、Kimi、纳米之类的高阶搜索工具就正好,特别是联网之后,准确率还是有相当保障的。

GPT或Gemini系列的基础模型,因为完全基于计算,而且语料库并非实时,其实无法保证信息的准确性,但它能提供各种你意想不到的、超出人的思维惯性的、更富启发性的回应。至于推理模型,像o1、o3、DeepSeek R1这种,则专用于解决需要更多中间步骤的复杂任务,如解谜、高级数学、编程等,用它们去检索普通信息,不仅是杀鸡用牛刀,而且难以避免地会出现各种不可思议的“胡编”。

《这就是ChatGPT》

[美]斯蒂芬·沃尔弗拉姆 著

人民邮电出版社 2023年7月版

未经允许不得转载: 纵观资讯 » AI真的有幻觉?会胡编吗?