相关关系可能是大数据里的“伪命题” : 经理人分享

Managershare：这篇文章看完之后，估计大家还得回去读读休谟和康德，M君提示大家，想省事点的，去看看罗素爵士的《西方哲学史》即可，康德和休谟各占一章。罗素还说，人类的各种问题，最终多数和哲学命题相交，哲学是科学和神学的分界线。然也。

大数据中一个耳熟能详的说法是：大数据长于分析相关关系，而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系，才是大数据真正问题所在。这个问题，被称为因果推断（causal inference），它是苹果iPhone6的语音识别和谷歌的无人驾驭汽车技术的基础。这个领域的大牛，美国工程院院士于达•珀尔（Judea Pearl，国内一般译为朱迪亚•珀尔）因此获得2011年的图灵奖。珀尔院士提出概率和因果推理演算法，彻底改变了人工智能最初基于规则和逻辑的方向。

珀尔院士的思想，在图灵问题的顶层设计高度，改变了我关于大数据的认识。与珀尔院士的深度思想交流事出偶然。“美国大师行”的旧金山站安排9月3日下午见珀尔院士。本来只是礼节性的见面，请他简单介绍一下研究成果。但珀尔院士显然理解错了，以为是专业交流，于是准备了64页的数学讲义。当他听说听众竟然来自媒体、法律、经济等文科背景时，不禁瞠目结舌。他说：“对不起，我不知道你们……”。改讲义已来不及了，只好硬着头皮，对牛谈琴。不料，两小时后，珀尔院士谈得兴起，早忘了我们是学什么的，奔放的数学思想喷薄而出，图论、概率论、非线性数学的公式象袋鼠一样，隔着十几步十几步地跳跃，如黄河之水，一发而不可收。时间已到，主办方反复提示无效，又讲了一个多小时。

我身旁的兄弟，被我晃醒，好像还在梦中，几乎已经坐不正了。我靠一杯一杯的咖啡支撑，勉强听着。之后，却意外地听入了迷，最后听到如醉如痴。因为我发现珀尔院士讲的，正是我在大数据上日思夜想的问题。

近年来，我在介绍大数据时，对相关关系与因果关系这个说法一直心存疑惑。虽然也引进美国大数据理论，如巴拉巴西院士的说法，但这个疑惑并没有消除。相关关系对应经验归纳，因果关系对应理性演绎。但难道大数据只有归纳，没有演绎吗，或者问，大数据如何才能实现归纳与演绎间的转化？在这个思维瓶颈上，珀尔院士一下点破了我。

珀尔院士走后，大家面面相觑，互相打听，这三个半小时，灌的是什么东东。在交流学习体会时，一位数学专业的专家说，他感到珀尔院士是在用一种非线性的方法，解决线性的问题。统计过去不能处理因果关系，只能处理相关关系，珀尔院士的贡献是把因果关系引入了统计概率分析，把非结构化的东西半结构化了。半途接替口语翻译进行专业翻译的查理，是腾讯大数据师，专业研究方向与珀尔同领域。他以“西安的模型能否用于成都”为比喻，从专业角度又向大家解释了一遍。我被当作文科的代表，在毫无心理准备的情况下，推到台上交流体会。直到被研究非线性物理出身的查理超赞时，才确认自己听的、想的，确实是珀尔院士讲的，感觉像中了奖一样。

我一上来就说，图灵问题的核心是人与自然（机器）关系问题，人工智能就是要实现二者的统一。这个问题对应的今天的主题，是定性（非结构化）与定量，归纳与演绎，感性与理性的关系——相关关系与因果关系——如何统一的问题。用珀尔院士的话说，就是从巴比伦思维到雅典思维的问题（The causal revolution – from associations to counterfactuals – from Babylon to Athens）。大数据发展当前存在的问题是，偏离了图灵原问题的轨道，变成理性计算的天下，以谷歌的数学算法为代表；而忽视了脸谱的算法（基于人与人associations的感性算法）。后者在统计学中，就是相关关系数据分析。珀尔院士对后者也不满意，因此才批评说“不要老想数据，先把现实用模型模拟出来”（大意如此），意思是要把非结构化的定性问题结构化。

查理此前曾说珀尔院士提出的是休谟的问题。我说，珀尔院士提出和解决问题的思路让我想起康德，我觉得他今天讲的内容，就是《纯粹理性批判》的数学版，而方法上的思路让我联想到牛顿与莱布尼茨。我回国后查阅专业资料时，发现有人这么评价珀尔院士的问题意识：“有人提到了哲学（史）上的休谟问题（我的转述）：人类是否能从有限的经验中得到因果律？这的确是一个问题，这个问题最后促使德国哲学家康德为调和英国经验派（休谟）和大陆理性派（莱布尼兹-沃尔夫）而写了巨著《纯粹理性批判》。”看来所见略同。

康德《纯粹理性批判》的原问题，是经验与理性之间的关系，相当于大数据中相关关系与因果关系之间的关系。我说，康德当年解同样问题的思路，象极了珀尔院士。康德设置了一个叫“图式”的概念，作为沟通经验与理性的中间框架（FRAME）。“图式”的特征是，兼具经验的具体性与理性的普遍性，但既不同于经验，也不等于理性。珀尔院士的“图式”就是因果图 (Causal Diagram)，是他的结构化理论。这个结构不是完全理性的，而是可以灵活调整的。我说，珀尔院士的结构与康德的图式唯一不同在于，前者设置了可替换的部件模块，用于根据情况临时调整，因此不是机械的结构，而是活的、松耦合的结构（例如，就象查理讲的，西安的“普遍真理”模型，只要更换一些适应成都“具体实践”的子模块，就可以用于成都）。

在方法上，珀尔院士以柏拉图著名的洞穴寓言，说明因果（真相）、结构（人）与相关（影子）之间的映射关系。我说，这更象牛顿和莱布尼茨的方法论：以理性为极限值，以经验为数列，中间设一个结构化的函数（相当于洞穴中的人）。经验（相关）可以无限接近理性（因果），永远达不到因果（极限值），但可以视为等于因果。珀尔院士的独特之处，只不过是把这个“函数”（图式），泛函化了，实现了从结构化向非结构化、从线性到非线性的转化。为此，在结构模型上，进行大量复杂的数学展开，成为他理论的重点。他的模型被称为“图模型”或者“贝叶斯网络”（Bayesian network），用来描述变量联合分布或者数据生成机制。好在听众睡觉时，他讲的都是这一部分具体内容。关于他的因果结构理论，我听课时私底下议论说，这个用流形上的微积分（Calculus on Manifolds），所谓“橡皮膜上的拓扑几何学”也做得出来。

当前，人们讨论大数据，有一个不好的倾向，在结构化还没有打好基础情况下，片面追求所谓非结构化数据。这样就陷入珀尔院士批评的“老想数据”的状态，相当于解微分的时候，不列函数，就想直接从数列中求极值一样。在中国，这种情况尤为严重。这会把大数据搞成脱离表义基础的禅宗。在商业上，不排除实用主义地利用大数据，找到卖货上的皮毛联系，但更适合小摊小贩，毕竟不知其所以然，就做不大，做不长。

不过这也不奇怪，整个统计学和概率论，目前还停留在这个水平上，大多是关于“相关关系”的理论，而关于“因果关系”的理论非常稀少。Karl Pearson 就明确反对用统计研究因果关系。困扰统计的根本问题（辛普森悖论，Yule-Simpson’s Paradox），也同样是困扰大数据的根本问题。

泛而言之，在整个逻辑学中，归纳论只能表示事物之间的相关关系，还无法指出真正的因果关系。这是有人类以来的难题。巴比伦人在毕达哥拉斯之前一千年已掌握了勾股定理的应用，也早就开始了天文观察；但雅典人却从经验中提炼出了天文学的思辨理论。我们现在在还只是大数据上的巴比伦人。

话说回来，因果推断过犹不及。如果把相关关系完全结构化了，也有问题，那就会排斥人类自由意志的空间。玻尔院士似乎还没有想过其中的哥德尔悖论问题。正如段永朝评论玻尔院士的那样：“不可知与可知，一定是你中有我，我中有你。他们想解决这个问题。确定性、不确定搅成一团。一时来看，方法上实现了；但根本上来说，科学观要升级。”

想一想珀尔院士也真不容易，毕业于人称的“野鸡”大学，超前人类几十年为大数据奠基，却少有人听懂他。他儿子Daniel Pearl是华尔街日报的驻外记者，9-11后在巴基斯坦被恐怖组织抓住，几天后斩首碎尸。珀尔院士没回答提问就走了，说要陪夫人。因为就在上午传来消息，第二位美国记者象他儿子一样被恐怖组织斩首，他夫人一定会再次想起儿子。

（下载iPhone或Android应用“经理人分享”，一个只为职业精英人群提供优质知识服务的分享平台。不做单纯的资讯推送，致力于成为你的私人智库。）

作者：姜奇平
来源：互联网周刊