黑箱深处：当推理失效，观测何以为证

我们倾向于相信自己理解的东西，不相信自己不理解的东西。这两个动作，是同一个认知错误的两面。

一、机制解释的幻觉

现代医学有一套几乎被奉为信条的认识论等级：随机对照试验在顶端，专家意见在底端，机制解释被视为介于两者之间的桥梁。这套等级并非没有道理——它建立在一个简洁的假设上：如果我们知道为什么有效，我们对它有效的信心就更充分。

但这个假设在面对复杂系统时悄悄滑落。

神经系统是复杂系统的典型代表。人脑拥有约 860 亿个神经元，每个神经元平均形成 7000 个突触连接，总连接数量在 100 万亿量级。这个网络的状态空间远超任何可计算的枚举范围。更重要的是，它的行为不是加和性的——局部的激活模式通过多层非线性变换，在全局层面涌现出无法从局部预测的现象。在这样的系统里，”解释机制”本质上是对一个高维非线性过程的低维投影。投影不是谎言，但它是简化，而简化总是有代价的。

这里有一个容易被忽略的后果：机制解释的缺席和效果的缺席在逻辑上是正交的。 我们无法解释机制，可能是因为效果本身不存在，也可能是因为机制过于复杂，超出了当前解释框架的分辨率。这两种情况需要分开对待。

二、神经可塑性与系统的”过度学习”

近年来神经科学的一个核心发现，是神经系统具有比早期预想深得多的可塑性（neuroplasticity）。这不仅指学习和记忆的突触级别变化，还包括神经通路的宏观重组——感觉神经密度的增减、抑制性回路的增强或衰退、乃至皮层功能区的边界迁移。

慢性疼痛和慢性咳嗽是这种可塑性的病理化案例。在慢性咳嗽中，持续的气道刺激导致传入感觉神经在气道上皮的分支密度显著增高，C 纤维兴奋性阈值下降，咳嗽反射弧被系统性地”调低”了触发门限。Shapiro 等人（2021）对难治性慢性咳嗽患者的气道活检直接证实了这种神经解剖层面的重塑，而患者的肺部影像和炎症指标可以完全正常。这就提出了一个有趣的问题：如果问题出在神经通路的敏化，那么传统的靶向诊断框架——寻找组织损伤或病原体——可能从一开始就找错了方向。

用计算的语言说，这是一种过拟合（overfitting）——系统对某种刺激模式过度优化，代价是泛化能力的丧失。原本对有害刺激的高敏检测机制，在持续激活的条件下变成了无区分度的噪声放大器。系统仍在”正常运行”，但它的参数已经漂移到了一个病理性的局部极小值。

神经网络和生物神经系统共享一个底层的学习原理：赫布规则（Hebbian rule）——同步激活的连接被强化。过度激活的后果在两个系统里都是结构性的，而非只是功能性的。差别在于，工程师可以直接读取神经网络的权重，而神经科学家面对的是一个不允许随意读写的黑箱。

三、不透明系统的认识论问题

这里触及了一个更基础的认识论困境，在神经科学和机器学习的交叉处特别尖锐：当系统足够复杂，因果链足够长，我们是否还能用演绎推理来确认一个干预手段的有效性？

演绎推理的标准路径是：从机制模型出发，预测干预效果，再用观测验证预测。但这条路径有一个隐藏的前提——机制模型必须足够精确，精确到能够生成可检验的预测。对于高维非线性系统，这个前提往往不成立。我们的机制模型是近似的，甚至是定性的，它们能解释已知现象，但预测能力非常有限。

一个极端的例子是深度学习本身。GPT 系列模型的参数量超过千亿，没有人能够”推理”出某个特定输入会产生某个特定输出——你只能运行它，观测结果。可解释性（interpretability）研究正在努力打开这个黑箱，但目前为止，对模型行为最可靠的预测方式仍然是：做实验，看结果。对这类系统，经验主义与其说是退而求其次，不如说是唯一可以站稳的立场。

神经系统亦然。迷走神经调节是一个很好的例子。迷走神经作为副交感神经系统的主干，调控着从心脏到胃肠道的大量内脏功能，并通过核迷走神经（nucleus tractus solitarius）与脊髓高级中枢保持双向连接。它同时也是慢性咳嗽反射弧的关键节点。Lim 等人（2016）通过随机对照设计证实，特定部位的体感刺激能够产生可测量的迷走神经活动变化和相应的抗炎效应。机制是真实的。但为什么是那些特定的神经支配区域？这些位置的特殊性从哪里来？这些问题目前还没有完整的演绎答案。

我们知道效果，不完全知道机制。在复杂系统里，这是一种正常状态，而非认识论的失败。

四、观测作为第一性证据

这引出了一个在方法论上需要认真对待的问题：在因果链不透明的条件下，高质量的观测能否独立承担证据功能？

统计学的发展给了我们一套精妙的工具来回答这个问题。随机对照试验的逻辑核心是：通过随机分配，让两组被试在均值上等价，从而把干预效果和混杂因素解耦。它不要求研究者知道机制，只要求干预和结果可以被可靠地测量。这是一种刻意设计的”机制不知论”——目标是知道*是否*有效，而不是*为什么*有效。

Ryan 等人（2012）在《柳叶刀》发表的随机双盲安慰剂对照试验证实，加巴喷丁（一种电压门控钙离子通道的调节剂）能显著改善难治性慢性咳嗽患者的咳嗽频率和生活质量。加巴喷丁的作用靶点在神经传导，而非气道炎症——这个发现本身是逆向工程：从干预效果反推系统的问题所在。在这里，观测结果先于机制理解，并且成为建立机制理解的前提。

这种”效果先于机制”的认识论路径，在医学史上并不罕见。阿司匹林用于临床超过半个世纪，其抗血小板机制才被 Vane（1971）阐明。锂盐稳定情绪的机制在临床应用数十年后仍未完全清楚。这些并非知识的漏洞，而是复杂系统认识论的正常形态：可靠的观测先行，机制理解后随，两者的时间顺序不影响效果的真实性。

Lim 等人（2025）对 30 项随机对照试验的系统综述，依据 GRADE 方法学框架，将针刺干预对慢性咳嗽的改善效果评定为中等可信度证据。中等可信度不是”存疑”，而是精确的统计学描述：现有证据足以支持效果存在，但尚不足以精确量化效果大小。在方法论意义上，这和对任何其他作用于复杂神经通路的干预手段的评估处于同一量级。

五、复杂系统的认识论边界

至此，我们可以更明确地表述这个核心命题：在复杂系统中，理解与有效性是解耦的。 一个干预可以有效，即使我们不完全理解它为什么有效。一个干预可以有完整的机制解释，但效果微弱甚至为零。真正应该关心的问题，是我们有多可靠的证据相信效果存在——而不是我们是否能用熟悉的语言描述它的作用路径。

这当然不意味着机制理解不重要。机制理解是科学进步的核心，它允许我们做更好的预测、设计更精准的干预、避免已知的副作用。但在机制理解尚未完成的地方，”我不理解”和”没有效果”之间有一道值得注意的鸿沟——前者是关于我们认知边界的陈述，后者是关于现实的陈述，两者不应混淆。

神经科学的可解释性危机和机器学习的可解释性危机在这里有一个深层的结构同构。两个领域都面对高维非线性系统，都无法完整地从第一性原理推导出系统行为，都依赖实验观测作为主要的认知工具。不同的是，神经科学的黑箱是演化了数亿年的生物器官，机器学习的黑箱是几十年内人工构建的数学对象。但面对两者时，我们的认识论处境是相似的：观测是我们能够信赖的最直接的证据，推理是对观测的事后解释，而非事前证明。

当高质量的重复观测告诉我们某种效果存在时，这个结论的有效性不依赖于我们是否拥有令人满意的机制解释。机制解释可以增加我们对该效果的理解，也可以修正我们对其边界的估计，但它无法取消观测本身的证据力量。

反过来同样成立：当我们拥有完整的机制解释，却没有可靠的观测支持时，机制解释本身不构成效果的证明。一个美丽的理论可以被一个难看的事实推翻——这是卡尔·波普尔（Karl Popper）的遗产，也是科学方法的基本精神。

六、系统重校准的一般性原理

回到神经可塑性的问题。如果慢性神经敏化本质上是一种系统级的过拟合，那么干预的逻辑就不是消除某个特定的病理因子，而是重校准（recalibration）：让系统的反应阈值从当前的病理性极小值移动到更稳健的状态。

这种重校准可以通过不同的路径实现。直接的神经药理学干预——如加巴喷丁调节电压门控通道——是一种路径。行为训练通过自上而下的注意力控制，对反射弧施加持续的抑制性约束，是另一种路径。外周体感输入通过不同于主导反射弧的神经通路，间接影响系统的整体状态，是第三种路径。

在机器学习里，过拟合的处理策略也是多元的：正则化（regularization）、Dropout、数据增强、早停（early stopping）——每种方法对应不同的干预位点，但目标是一致的：让系统从过度依赖某种局部模式，退回到对更广泛输入分布有泛化能力的状态。

不同路径的共同逻辑是：不需要知道所有的权重，就可以改变系统的动力学。 这或许正是复杂系统干预的本质——你不直接控制系统的状态，你改变系统所处的条件，让它自己找到新的稳定点。控制论（cybernetics）的奠基人诺伯特·维纳（Norbert Wiener）早在上世纪中叶就认识到这一点：复杂系统的调控是反馈性的，不是指令性的。你观测，你调整，你再观测。没有一劳永逸的解析解，只有不断迭代的近似。

复杂系统的行为，在很多时候，不能被演绎推理所证明，只能被观测所揭示。当我们说”我不理解它为什么有效”，这是一个关于我们自身知识边界的陈述，不是关于现实的陈述。两者的混淆，在科学史上造成了不止一次不必要的认识论封闭。

识别这两种陈述的区别，需要一种特殊的认知谦逊：既不因机制不透明就拒绝观测证据，也不因观测结果违背直觉就预设它必定是假象。

毕竟，大脑和神经网络都在做同一件事：从不断变化的刺激中提取模式，在提取中改变自身的结构。两者都可以过度学习，两者都需要重校准，两者的机制都没有被完整理解。我们对两者最可靠的认识路径，到今天为止，仍然是：观测，测量，重复，然后保持谦逊。