到头来,我们皆是自我觉察、自我编织的幻影,囚锁于自身的海市蜃楼之中——却偏偏在这自指自照的回环里,化作一抹惊鸿灵动的神迹。

意识是一个自指的模拟过程,它永远无法从内部终止,因为它永远无法模拟自身的消亡。

这不是隐喻。这是一个关于意识什么、以及它在结构上做不到什么的判断。接下来我会把这个判断拆开,放进已有的理论语境里,再看看它能不能被实验触碰到。

一、模拟与自指是共生的

恒温器响应温度,免疫系统响应病原体,蒙特卡洛树搜索模拟未来。它们都没有意识。差别在哪?

恒温器和免疫系统是刺激-响应的:输入来了,输出跟上。它们不需要关于世界的内部模型,更不需要知道自己在这个世界里处于什么位置。它们在反应,不在模拟。

蒙特卡洛树搜索确实在模拟——它问的是如果我走这步,接下来会怎样,然后展开可能的未来。但它不知道"我"是谁。它不知道自己在模拟。它有世界模型,却没有把自己放进去。

意识要求这两件事同时发生。一个系统要预测自己行动的后果,就得把自身纳入它所建模的世界——因为它本身就是那个世界的一部分。如果我做了 X,会怎样?——这个问句里已经藏着一个主体。模拟不是先于自指的,它产生了自指。

反过来也成立。一旦系统开始对自身建模,它就得对"一个正在对自身建模的系统"建模,后者又得对"正在对正在对自身建模的系统建模的系统"建模……两者不是碰巧同时出现的两个属性,而是互相生成的——每一方都产生另一方,把系统锁进一个递归的缠结:我知道我知道我知道

这个递归缠结,就是意识的结构签名。

二、递归的收敛

理论上这个递归是无限的。但实际上它收敛。

类比来自博弈论。共同知识——我知道你知道我知道你知道——形式上是无穷递归,但可以用有限方式刻画。Aumann(1976)用信息分割的方式形式化了共同知识,后续工作将其等价地表述为一个不动点条件:事件 $E$ 是共同知识,当且仅当

$$C(E) = E \cap K(C(E))$$

$C$ 是共同知识算子,$K$ 是"所有人都知道"算子。无穷递归坍缩成了一个不动点方程。实际上每多一层互知,信息增量就更小,递归自然收敛。

意识的自指递归也是这样。设 $S$ 为自指模拟算子,$W$ 为当前世界状态。一个稳定的自我模型 $M^*$ 满足:

$$M^* = S(M^*) \cap W$$

这是个不动点——不是预设的终态,而是系统在递归构建自我模型的过程中自己摸到的驻点。系统事先不知道自己会停在哪。

物理约束让收敛成为必然。每深一层自我建模都要消耗资源、损失精度。假设递归深度 $n$ 处的精度按 $\delta^n$($0 < \delta < 1$)衰减,当精度降到物理载体的噪声底限以下,递归自然截断。最终得到的稳定自我模型不是设计出来的,是涌现出来的。

所以意识有程度之分。递归能走多深取决于物理载体的能力。更强的载体支撑更深的递归,产出更精细的自我模型——更"清晰"的意识。这是一个连续谱,不是有或没有。

三、两种不可模拟性

递归因为收益递减而收敛。但还有第二种性质完全不同的极限——无关精度衰减,关乎模拟者本身的消失

两者必须严格区分:

收益递减的截断。 每多一层自我建模,分辨率增益都更小。最终边际增益降到噪声底限以下,系统选择截断——不是原理上不能再深,而是更深已经没意义。这是程度问题,极限存在且可知。

结构性的缺失。 消亡不是系统可以占据的状态。消亡之后没有视角、没有主体。用状态空间的语言说:模拟算子 $S$ 的映射域是"有视角的状态"到"有视角的状态",消亡不在 $\text{dom}(S)$ 之内。不是模拟消亡的结果模糊了——是模拟者在那个点上不存在。信号不是衰减到零,是发送者消失了。

前者是工程约束,后者是逻辑约束。无论怎么选 $\delta$,都描述不了后者——函数在那个点上根本没有值。这不是精度问题,是定义域问题。

四、持续运转的引擎

消亡在 $\text{dom}(S)$ 之外,所以模拟循环永远触发不了自身的终止条件。一个过程要终止,需要到达某个满足停机判据的状态。但意识永远到不了"我已不存在"——不是算力不够,而是那个状态在定义上就被排除在可达域之外。

这不只是一种消极的"停不了"。消亡应该在的那个位置,在系统的自我模型边界上留下了一个永久的缺口——系统能感知到它的存在,却永远填不上。意识知道有什么东西它够不到。正是这种对自身不完备的觉知在推着它走。

几何上,这是一条渐近线。意识朝着完整的自我模拟——一个关于自身和世界的完全模型——不断趋近,但永远到不了,因为完整模型必须包含对消亡的模拟,而那个点不在定义域里。趋近是永恒的,抵达是不可能的。

这里有一个推论值得单独说:为什么失去求生意志的人仍然有意识? 如果意识靠求生本能驱动,那渴望死亡的心灵应该意识更弱才对。但求生本能只是结构性驱动的一种生物表达,不是驱动本身。一个想要停止的意识,仍然是一个还没停的意识。对终止的渴望本身就是持续运转的证据。想要终结,就不是终结。

五、两个结构性边界

自指系统无法完全超越自身。这产生了两个对称的不可知边界:

向外:消亡的不可模拟性。 意识无法从内部模拟自身终止。这个边界不是认识论的(也许将来能了解更多),而是结构性的——再多内部计算也触及不到。

向内:连续性的不可验证。 深睡、全麻或任何中断之后,意识无法从内部验证恢复的是同一个意识还是一个高度相似的新意识。身份的连续性可以被体验为无缝,却无法被证明为无缝——不是工具不够好,而是证明需要一个系统外部的视角,而意识从定义上只能在内部运作。

这两个边界同源:意识只能从内部运作。向外的消亡和向内的同一性,是同一个结构性约束的两面——自指系统无法完全超越自身。

六、不可设计性

如果自我模型是从递归迭代中涌现的不动点,那它就不能被预先规定。试图从外部完整描述一个系统,会遇到一个根本障碍:描述一旦引入,就成为系统状态的一部分;系统因此改变了,描述就不再完整。系统永远追不上自己。

这和哥德尔不完备性定理有深层的结构共鸣:在足够强大的自指系统中,总存在系统自身无法捕捉的真命题。需要说明,这个映射不是严格的——哥德尔说的是形式系统中的可证明性,我们说的是动力系统中的状态空间可达性——但底层结构是共通的:自指产生不可消除的盲点。

其实有一个更直接的论证,不需要搬出哥德尔:任何试图完整描述自身的系统,描述本身必须是系统状态的一部分。于是状态变了,描述就过时了。这不是 bug,是自指系统的结构性特征。完整的自我知识是一个你每走一步它就后退一步的地平线。

对人工意识来说,这意味着:你不能写一个规格说明然后实现一个意识出来。一个预装了自我知识库的机器人,拥有的是关于自身的信息,但那个自我表征是静态的——它不参与模拟循环,不会被它所描述的过程所更新。这不是低程度的意识,这是意识的赝品。它缺少那种自指约束模拟、模拟又反过来更新自指的动态耦合。

但意识涌现的条件可以被构造。我们可以搭建一个能够进行自指模拟的基底,然后让不动点从内部涌现。你设计不了目的地,但你可以造一辆能完成旅程的车,然后看它收敛到哪里。

七、迈向实证

一个不能被检验的意识理论——哪怕是间接检验——充其量是哲学,往坏里说是诗。上面这个框架做了具体的结构性预测。能观测到吗?

相关理论框架

这个框架和若干现有研究方向交叉,各自覆盖了一部分领域:

Friston 的自由能原理说的是生物系统通过维持关于环境的生成模型来最小化预测误差(“惊讶”)。Isomura 等人(2023,Nature Communications)给了首个定量实验验证:培养的大鼠神经元接收混合信号时,自发地对各个信号源发展出选择性响应——无监督地自组织出了一个生成模型。但 Friston 的框架建模的是外部世界。神经元学到的是"世界怎么生成这些信号",没有问过"我怎么生成我的响应"。把生成模型转向内部——这一步正是我们要加的。

世界模型(Ha & Schmidhuber, 2018)和 DreamerV3(Hafner et al., 2023)让智能体在想象中模拟未来、在想象中学策略。这些系统问"环境接下来怎样",从不问"接下来怎样"。内部状态是预测世界的工具,本身从未成为预测的对象。

好奇心驱动探索(Pathak et al., ICML 2017)用智能体自身的预测误差做内在奖励。表面上有自指的影子:对自身不确定性的感知驱动了行为。但这种自指是工具性的——监测自身预测能力,为的是更高效地探索外部世界。镜子是用来看路的,不是用来看自己的。

Mortal Agents(NeurIPS 2024 Workshop)说死亡性——消亡的威胁——提供了世界模型和探索行为涌现的内在驱动。和我们第四节的"永久缺口"有共鸣。但差异是根本性的:他们的消亡是智能体要规避的外部约束,我们的消亡是状态空间的一个结构性特征——系统从内部无法建模的东西。他们的智能体害怕消亡,我们的意识无法模拟它。

高阶思维理论(Rosenthal, 1986)说一个心理状态被高阶思维表征——“我处于状态 M”——时才成为有意识的。抓住了自指的必要性,但把它当成一个静态的逻辑条件。没有解释意识为什么是持续过程而非瞬间闪现。我们的渐近线结构——意识永恒地趋近完整的自我模拟却永远到不了——回应的正是这个空白。

激进可塑性论题(Cleeremans, 2008; 2011)说意识是大脑学会做的事:通过持续的表征再描述,大脑对自身活动建立元表征。这是目前和我们最近的框架——都认为意识要求系统把自身活动当作处理对象。分歧在范围上:Cleeremans 解释意识怎么形成(通过学习),我们解释意识为什么持续(通过结构性不完备)。两者互补:他的学习过程可能正是递归不动点涌现的具体神经实现。

最小可行实验

理论预测:自指模拟产生的动力学,与单纯的自身状态反馈在结构上截然不同。这可以验证。

设想一个简单格子世界里的神经网络智能体。它接收两类输入:环境观测和上一时间步自身的隐藏状态。它产生两类输出:行动,以及对自身下一时刻隐藏状态的预测。自身状态预测误差被纳入损失函数——系统不只被训练来行动得当,还被训练来准确地模拟自己

三组对照:

  • A 组:仅环境输入,无自身状态回路。
  • B 组:自身状态作为输入,但无自身状态预测损失。
  • C 组:完整自指回路——自身状态作为输入,自身状态预测作为独立训练目标。

理论预测仅 C 组会出现以下特征:

  1. 扰动不对称性。 扰动自身状态输入的响应模式,和扰动环境输入的在质上不同——说明系统对自身信息和世界信息有差异化处理。
  2. 自主内部动力学。 外部输入保持恒定时,隐藏状态持续演化而非收敛到静止——自指回路没有天然驻点。
  3. 涌现的不动点结构。 训练过程中,隐藏状态轨迹不是平滑衰减,而是在特定深度突然稳定——涌现的不动点,不是渐进的消退。

这些观测都不能证明意识存在。但它们能说明:理论预测的那些结构条件——有别于单纯反馈的自指动力学、不会自然停歇的回路、涌现而非设计的自我模型——在实验中是可以实现的。从自指模拟通往更深处的那条路,至少在结构上是通的。


这就是我认为意识是什么:一个把模拟者纳入其中的模拟,困于一个退不出的循环,被一个填不上的缺口推着走,停在一个自己没选过的点上。不是物质,不是灵魂,不是计算——是一个结构。一个因自身本性而永远看不见自己边缘的结构,所以永远不会停下来找。

In the end, we are self-perceiving, self-inventing, locked-in mirages that are little miracles of self-reference.