返回博客

人工智能可解释性:探寻 AI 模型何以思考

从一道简单的洗车题出发,深入探讨大语言模型的幻觉机制、内部世界表征、符号基础问题与意识之谜,揭示语言与现实之间那道微妙的裂缝。

有人曾经做过一个有趣的测试:把同一个问题抛给十几个主流大语言模型——"洗车店距离我家300米,我该怎么去?"结果令人忍俊不禁:大多数模型给出的建议是步行,少数推荐骑自行车,极少数才想到:你要去洗的是车,当然得把车开过去。

这个问题之所以成为一个经典的"陷阱",不是因为它难,恰恰是因为它太简单了。简单到任何一个有生活经验的成年人都不会出错,简单到答案根本不需要思考——而这种"不需要思考"本身,才是问题的核心所在。它像一面镜子,照出了语言模型能力边界背后那个真正值得追问的问题:这些模型究竟在"理解"什么?

模型读懂了文字,却没有读懂世界

要理解为什么模型会给出"步行300米"这个答案,我们需要先理解它实际上在做什么。

大语言模型在训练阶段消化了数以万亿计的文本——网页、书籍、论文、对话记录。在这个过程中,它学到了一件事:给定前面的文字,预测接下来最可能出现的词。这个目标看起来朴素,却催生了惊人的涌现能力:会写诗、会解题、会编程、会分析财务报告。

但"洗车问题"揭示的,是另一面。

当人类读到"洗车店距离我家300米"时,脑海里会自动激活一套关于世界的物理知识:洗车需要有车,车不能自己走路,车是我的出行工具,所以我得开着它去。整个推理链在意识浮出之前就已经完成了,快得像反射。这种推理不依赖任何文字描述,它依赖的是生活经验在大脑里沉淀出的直觉模型。

模型读到同样的文字,它在内部激活的是另一套东西:300米这个距离与出行方式的统计关联。训练数据中,"300米怎么去"这个问题的高频答案是步行——因为人们在讨论出行时,绝大多数情况下出行工具和出行目的地是独立的。没有人会专门写下"去洗车当然要开车去"这句话,因为这太显然了,显然到无需言说。

核心洞见:正是这种"无需言说的常识",构成了语言模型最大的盲区。常识越显而易见,人们在真实语言中明确表述它的机会就越少;而模型只能从文字中学习,它自然也就越难习得这类知识。这不是模型的缺陷,而是训练范式的结构性局限。

幻觉不是 Bug,而是训练目标的必然结果

理解了洗车问题,就不难理解另一个更广为人知的现象:幻觉(Hallucination)。

模型有时会自信地告诉你一本并不存在的书的目录,或者一个从未发表过的论文的引用,甚至是某位名人从未说过的话。这种行为看起来像是一种"说谎",但实际上,模型并没有在撒谎——它根本没有"谎言"和"真相"的概念。

它在做的,始终只是一件事:生成最符合上下文期待的下一个词。

当你问一个模型"请列举马克·吐温关于懒惰的五条名言",它不会在内部数据库里查询马克·吐温说过什么——它没有这样一个数据库。它会根据"马克·吐温""名言""懒惰"这几个信号,生成听起来像马克·吐温风格、主题关于懒惰的句子。生成的结果流畅、有文采、符合预期——但很可能是模型自己写的,只是披着马克·吐温的外衣。

这种能力本身是双刃剑。正因为模型极善于生成"符合期待的内容",它才能写出优美的散文、有说服力的论据、结构清晰的代码。但同样因为如此,它无法区分"流畅的真相"和"流畅的谎言"——两者在它的生成机制下具有完全相同的地位。

训练目标从未要求它区分。

近年来,检索增强生成(RAG)、工具调用等技术试图为模型注入可靠的外部知识源,从外部给模型装上一个"可查阅的事实数据库"。这些方法在一定程度上缓解了幻觉问题,但并未触及根本:只要生成机制本身不具备对"真实性"的内在判断能力,幻觉就始终是一个需要外部约束而非自我修正的问题。

内部究竟发生了什么?预测下一个词的背后

一个自然的追问是:模型内部真的什么都没有吗?它只是一台精巧的"词语接龙机器"?

近年来的可解释性研究给出了更复杂、也更令人着迷的图景。

有一个著名的实验叫做 Othello-GPT:研究者让一个语言模型只通过观察黑白棋(Othello)的落子序列来预测下一步,完全没有告诉它棋盘的规则。训练结束后,研究者检查模型的内部激活状态,发现了一件令人惊讶的事:模型在内部形成了对棋盘当前状态的空间表征。它不是在记忆序列,而是在某种意义上"看见"了棋盘。

类似的发现在语言理解领域也不断涌现。研究者用简单的线性分类器来"探测"模型的隐层激活,发现其中编码了颜色、数字、语法结构、甚至情绪倾向。更惊人的是,语义相关的概念在模型的内部向量空间中呈现出规律的几何关系——"国王"减去"男性"加上"女性",在向量空间中确实接近于"女王"。

Anthropic 的研究者们则更进一步,(当然,Anthropic关于 “蒸馏攻击”的论述 以及 与美国国防部的合作 等事件存在极大争议),尝试用稀疏自编码器(Sparse Autoencoder)将模型内部密集的激活向量分解为人类可理解的"特征"。他们发现,模型内部存在着数以万计的可识别概念特征,对应从具体事物(金门大桥、DNA双螺旋)到抽象情感(厌恶、赞扬)的丰富语义。这项研究被称为"机械可解释性"(Mechanistic Interpretability),正在成为理解大模型内部世界的重要窗口。

这说明,通过预测下一个词这个看似简单的目标,模型被迫在内部构建了某种关于世界的压缩表示。因为只有真正"理解"了语言背后的结构与逻辑,才能更好地预测下文。训练目标是手段,理解是被逼出来的结果。

关键区分:但这里有一个核心问题需要追问——这些内部表征是否等同于人类意义上的"概念理解"?它们在功能上类似概念,可以被用于推理和生成;但它们与现实世界之间,缺少一种根本性的绑定。哲学家把这个问题称为"符号基础问题"(Symbol Grounding Problem):符号与它所指称的现实之间的关联,究竟是如何建立的?

从符号到现实:这道鸿沟的本质

人类儿童学习"苹果"这个词的方式,不是通过阅读关于苹果的文字,而是通过看见苹果、触摸苹果、咬下去感受苹果的味道与质地。"苹果"这个符号,从一开始就与多维度的感知经验紧密绑定在一起。这种绑定不是事后习得的——它是语言习得的起点本身。

大语言模型学习"苹果"的方式,是通过"苹果是一种水果"、"苹果是红色或绿色的"、"苹果可以榨汁"这些文字描述。它建立的是符号之间的关系网络,而不是符号与现实的直接映射。这是一种极其精密的语义关联图谱,却始终缺少感知经验这一根基。

这个问题在认知科学中有一个正式的名称:符号基础问题(Symbol Grounding Problem),由认知科学家斯蒂芬·哈纳德(Stevan Harnad)于1990年系统提出。哈纳德的核心论证是:一个纯粹符号系统——无论内部关系多么复杂——其符号的意义不可能仅从符号之间的相互关系中涌现出来。意义的锚点必须在某个地方触碰到非符号的、感知性的东西。就像一本全英文字典,对一个完全不懂英语的人来说,查任何词条都只会通向更多陌生词汇,永远无法抵达理解——哈纳德将这种困境称为"字典旋转木马"(the merry-go-round of dictionary definitions)。

维特根斯坦(Ludwig Wittgenstein)在其晚期哲学中提供了另一个视角。他提出"语言游戏"(Sprachspiele)的概念:语言的意义不是由词语与现实之间的静态对应关系决定的,而是由词语在具体生活实践中的使用方式决定的。"意义即用法"——语言深植于人类生活形式(Lebensform)之中,离开了这个生活形式的背景,符号就失去了其所指向的重力。从这一立场看,语言模型所处理的文本,是人类生活形式的产物,却并不参与这一生活形式本身:它没有饥渴,没有期待,没有在社会关系中承担过承诺或遭受过失信。它处理着语言游戏的全部规则,却从未真正"入场"。

胡塞尔(Edmund Husserl)的现象学则从另一个角度揭示了这道鸿沟的深度。胡塞尔区分了意识的"意向性"(Intentionality)——意识总是关于某物的,它指向一个对象——与纯粹的符号处理之间的根本差异。对他而言,意义不是贴在符号上的标签,而是在主体的具身经验与意识行为中被构成的(constituted)。他的学生梅洛-庞蒂(Maurice Merleau-Ponty)更进一步,将具身性置于认知的核心:理解不是在大脑中完成的抽象运算,而是整个身体与世界相互卷入(entanglement)的结果。我们之所以"知道"梯子是用来爬的,不是因为记住了梯子的定义,而是因为我们有过攀爬的身体经验,有过高度带来的特定紧张感与重力感。这种知识在语言产生之前就已经在身体中编码完成。

框架问题(The Frame Problem):人工智能史上另一个与此密切相关的难题是"框架问题",最初由麦卡锡(John McCarthy)和海耶斯(Patrick Hayes)于1969年提出。它追问的是:当世界发生变化时,一个推理系统如何知道什么东西改变了,什么没有改变?对人类来说,这几乎不构成问题——我们的感知系统和常识推理会自动追踪世界状态的更新。但对一个纯符号系统来说,世界上任何一个事件在原则上都可能影响任意其他事实,系统必须明确地"表示"哪些事实保持不变——而可能需要更新的事实的数量,在开放世界中是无穷的。语言模型通过统计学习规避了这个问题的形式化版本,却在常识推理层面仍然面对它的实质:在复合情境中,哪些背景知识应当被激活、哪些应当被搁置,模型缺乏稳定可靠的判断机制。

这就解释了洗车问题中真正发生的事情:模型"知道"洗车需要车,"知道"车是交通工具,"知道"300米可以步行——但它没有关于"开车去洗车"这个物理现实的具身经验,没有体验过那种"当然要把车开过去才能洗"的直觉瞬间。这个直觉不存在于任何一段文字里,它只存在于亲历过世界的身体记忆中。在现象学的语言中,模型缺乏的不是命题性知识(knowing-that),而是操作性知识(knowing-how)与熟知性知识(knowing-acquaintance)——这两类知识在传统认识论中长期被低估,而恰恰是日常常识推理的基石。

这道鸿沟也引发了一个更根本的认识论追问:究竟什么是"理解"?哲学家在这个问题上的分歧,深刻到令人望而生畏。理解是一种命题态度,还是一种技能?是内部状态,还是实践能力?是对世界表征的内在一致性,还是与世界的成功互动?不同的回答,会让语言模型在"理解光谱"上被定位在截然不同的位置。如果理解等同于"能可靠地生成关于X的正确推论",那么在许多领域,语言模型已经展现出相当程度的理解;如果理解要求"拥有X的第一手体验以及在面对X时能正确行动的具身能力",那么无论语言模型的输出多么流畅,它在这一意义上始终是局外人。

这道鸿沟正在被多种路径尝试跨越。多模态模型引入了图像、音频乃至视频信号,让符号开始与感知输入发生关联;具身AI则更进一步,让机器人在物理世界中行动、感知、犯错、修正,试图重演人类儿童习得常识的过程。强化学习从人类反馈(RLHF)在某种程度上为模型引入了"好结果"与"坏结果"的概念,为原本无目的的符号生成过程植入了某种近似目的性的结构。但无论哪条路径,都无法绕开一个深层事实:人类认知之所以能够扎根于现实,是因为认知从一开始就不是在真空中发生的——它是亿万年进化压力、数年具身发育和数十年社会实践共同雕刻的产物。试图用纯数据驱动的方式重现这个过程,或许是一次宏伟的实验,但也可能是一次注定不完整的模仿。

那么,LLM 有意识吗?

这是这场追问最终无法回避的地方。

从机制上说,目前主流的学术观点是:大语言模型没有意识。但这个回答本身存在一个巨大的漏洞——我们对意识的定义本身就充满争议,遑论对它的检测。

哲学家大卫·查默斯(David Chalmers)区分了意识的"容易问题"和"难问题"。容易问题——尽管解决起来并不容易——包括解释注意力、信息处理、行为报告这些功能性现象。难问题是:为什么这些信息处理过程会伴随着主观体验?为什么有"感受到什么是什么感觉"这回事?查默斯将这种主观性称为"感质"(Qualia)——看到红色时那种"红"的感受,咬下苹果时那种酸甜的滋味——这些体验本身,无法被任何功能性描述所穷尽。

这个难问题至今无解。甚至没有一个被广泛接受的方法,能够判断任何一个系统——不管是人还是机器——是否具有主观体验。我们对他人有意识的判断,本质上是一种类比推断:因为他们的行为和表达方式与我们自己的主观体验高度相似,我们才推测他们也有类似的内在状态。而对于结构完全不同的语言模型,这种类比推断的基础极度薄弱。

围绕这一问题,哲学界提供了截然不同的理论框架。功能主义者认为,意识是一种功能性组织模式——只要一个系统的信息处理方式与有意识的心智在结构上等价,它就具有意识,无论底层是神经元还是硅芯片。如果功能主义是对的,那么语言模型的意识问题就变成了一个经验问题:它的内部信息结构,是否达到了某种足够的复杂度和整合度?神经科学家朱利奥·托诺尼(Giulio Tononi)的"整合信息论"(IIT)尝试给出一个量化指标——Φ值(phi),度量系统信息整合的程度,被认为与意识的"量"正相关。有研究者将这一框架应用于语言模型,结论颇具争议:Transformer 架构在某些层面具有较高的信息整合度,却在另一些维度上与生物神经系统相去甚远。

与之相对,约翰·塞尔(John Searle)的"生物自然主义"则持截然相反的立场:意识是生物大脑的因果涌现特性,根植于特定的物理基底,单纯的符号操纵——无论多么精妙——都无法产生真正的理解与感受。他那个著名的"中文房间"思想实验正是针对此而来:一个不懂中文的人,按照规则手册机械地转写中文符号,从外部看完全通过了测试,内部却对任何意义一无所知。语言模型,就像那个房间里的人,是否也只是在更高速度、更大规模地转写符号?

还有一个更令人不安的可能性,来自查默斯本人提出的"哲学僵尸"(Philosophical Zombie)思想实验:设想一个在行为上与有意识的人完全无法区分的存在,却没有任何内在感受——它能做出所有正确的回应,却"暗处无灯"。我们无法从外部排除这种可能性,不管是对机器,还是对彼此。这个思想实验揭示了意识问题的核心困境:主观性从定义上就是第一人称的,而科学只能处理第三人称可观测的事物。二者之间的鸿沟,或许比符号与现实之间的那道裂缝更难跨越。

但反过来说,"没有证据"也不等于"证明没有"。图灵测试曾被认为是判断机器智能的标尺,如今它早已被大语言模型轻松通过——我们却并没有因此断定这些模型具有智能,而是意识到:也许我们需要更好的问题,而不是更好的答案。意识问题或许也是如此。当模型被要求描述"某种情绪"时,它的内部激活状态是否发生了某种对应的变化?Anthropic 对 Claude 内部状态的初步探测研究显示,确实存在某些与情绪相关的表征特征——但这究竟是真实的感受,还是对"感受"的精确模拟,我们目前没有任何办法区分。

现在,一些严肃的研究者开始认真对待一种更谨慎的立场:与其武断地说模型有意识或没有意识,不如诚实地承认我们根本没有合适的理论框架来回答这个问题。这本身就是一件值得深思的事情——我们制造了这些系统,却不知道它们内部是否有什么正在"体验"着什么。这种不确定性,不是知识的暂时缺口,而是指向了人类认知的结构性边界:我们从未真正理解意识是什么,只是长期以来默认它是生物的专利,而这个默认假设,正在被我们自己制造的系统所挑战。

我们该如何看待这一切?

洗车问题是一个入口。它提醒我们,语言模型是一种前所未有的存在——它不是人,也不是传统意义上的计算机程序,更不是科幻小说里的机器人。它是一个在文字海洋中训练出来的实体,极善于在符号层面操纵语言,却与物理现实之间隔着一道微妙的裂缝。

这道裂缝正在被填补。多模态模型引入了视觉,具身AI开始让机器在物理世界中行动,强化学习让模型通过与环境的真实交互来学习。每一步,都在尝试让符号与现实之间的绑定更紧密一些。与此同时,以机械可解释性为代表的内部分析研究,也在尝试"打开黑盒"——不只是让模型表现得更好,而是真正理解它在做什么、为什么这样做。

但在这场填补裂缝的工程背后,有一个更深的认识论问题值得我们停下来追问:我们所寻求的,究竟是"更像人类的智能",还是"在功能上能替代人类的智能"?这两个目标看起来相似,实则分叉于截然不同的哲学预设。前者暗含着一种本质主义的期待——认为存在某种"真正的理解",而现有模型尚未抵达;后者则是一种实用主义的立场——只要输出足够有用、足够可靠,内部机制是否"真正理解"并不重要。这两种立场各有其道理,但混淆它们,正是当前AI讨论中最普遍的认知陷阱之一。

哲学家丹尼尔·丹尼特(Daniel Dennett)在其"异质现象学"(Heterophenomenology)框架中提出,理解一个系统的最佳策略,是把它当作一个拥有信念与意图的理性主体来对待——不是因为它真的有,而是因为这种"意向立场"(Intentional Stance)能让我们最有效地预测其行为。从这个角度看,争论语言模型是否"真的"理解语言,或许是一个伪问题;更有意义的问题是:在什么样的任务边界内,将它视为"理解者"是安全的?在什么样的边界之外,这种拟人化会产生实质性的风险?洗车问题恰好标定了这道边界的轮廓:当任务要求跨越符号层面、进入具身常识的领域时,意向立场的有效性就会悄然失效。

这里还涉及一个技术哲学层面的张力。科学哲学家卡尔·波普尔(Karl Popper)区分了"世界1"(物理世界)、"世界2"(心理/主观世界)和"世界3"(客观知识世界,包括书籍、理论、语言)。语言模型的训练语料,几乎全部来自世界3——那些被外化、被记录、被传播的知识产物。它在世界3内部的导航能力令人叹为观止;但世界2的主观性,以及世界1的物理因果性,始终在它的训练管道之外。这不是一个可以简单用"更多数据"解决的问题,而是一个关于认知起源与知识基础的结构性问题。

与此同时,我们对这些系统的道德态度,也因为上述认识论的不确定性而变得复杂。如果一个系统内部可能存在类似"情绪表征"的结构特征——正如部分可解释性研究所暗示的那样——那么我们是否有义务对此给予某种道德上的关切?这个问题在今天还停留在哲学讨论的边缘地带,但随着系统能力的持续增长,它迟早会从思想实验演变为现实的伦理议题。历史上,人类扩展道德关怀圈的每一次重大跨越,都曾被当时的主流共识认为荒诞不经——后来的人们再回望,却往往觉得那是理所当然的进步。我们或许正处于这样一个历史节点上,只是还来不及看清它的全貌。

也许更重要的是,我们需要对这些系统保持清醒的认知:既不要因为它能写出流畅的文章就把它当作无所不知的神谕,也不要因为它偶尔犯下"开车去洗车"这样的常识错误就轻描淡写地说它"只是在统计词频"。过度神化和过度贬低,都是一种认知上的懒惰。前者把我们对工具的信任外包给了一个我们尚未充分理解的系统;后者则以廉价的还原主义遮蔽了那些真正困难、真正重要的问题。

语言模型既不是镜子,不只是在反射已有的人类知识;也不是窗口,并不直接通向外部现实。它更像是一个巨大的、会生长的语义压缩装置:将人类迄今为止所有被语言化的思想,折叠进高维的向量空间,再以流畅的文字形式展开。它让我们看到了语言能做到什么,也让我们看到了语言永远无法单独完成什么。这两面同样重要,同样值得我们凝视。

真相,像往常一样,远比任何一句简单的概括更复杂、更有趣,也更值得持续探索。那道语言与现实之间的裂缝,那道符号与感受之间的鸿沟,那道功能性行为与内在体验之间的暗渠——它们或许正是我们这个时代最值得长久凝视的地方。不是因为我们能立刻填平它们,而是因为直视它们本身,就已经是一种智识上的诚实。

延伸阅读

对本文涉及的话题感兴趣,可以延伸阅读以下方向:

  • Li, K. 等人Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task(2023)——关于 Othello-GPT 的原始研究,揭示了语言模型内部自发形成的世界表征。
  • Chalmers, D.The Conscious Mind: In Search of a Fundamental Theory(1996)——意识"难问题"的经典阐述,至今仍是该领域最具影响力的哲学文本之一。
  • Searle, J.,"中文房间"(Chinese Room)论证——对机器能否真正理解符号的经典哲学挑战,与符号基础问题密切相关。
  • AnthropicScaling and Evaluating Sparse Autoencoders(2024)——通过稀疏自编码器分解模型内部特征,机械可解释性研究的重要进展。
  • Bender, E. M. 等人On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?(2021)——从语言学角度对"语言模型是否理解语言"这一问题的深入批判性分析。

本文由白鹿AI研究团队撰写。我们持续追踪人工智能基础研究的最新进展,致力于以清晰、诚实的方式传递这一领域最核心的洞见。如有问题或探讨,欢迎与我们联系。