前言
近年来,人工智能技术取得了长足的进步,DeepMind公司的AlphaGo横扫世界围棋顶尖高手,AlphaFold能够精确地基于氨基酸序列来预测蛋白质结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或X单晶衍射等方法解析蛋白质结构的准确性相媲美。人工智能技术在许多领域取得了不可思议的进步,语音翻译、图像场景识别等曾是科幻小说中梦想的成就,现在已经成为现实。在技术突破和市场需求的多方驱动下,人工智能技术已经从学术走向实践,正加速向各个产业渗透,改造各行各业。如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。
但是,现有的人工智能技术几乎都是基于统计学或黑箱的形式,主要关注变量之间的相关性而非因果性,这使其性能有严重的理论局限性。它在动物擅长的一些技能方面表现并不好,特别是将解决问题的能力迁移至新问题,以及进行任意形式的泛化时。一些常识问题对于人类而言很简单,但对于现在的人工智能技术而言并不简单。因此,2011年图灵奖得主、贝叶斯网络之父朱迪亚·珀尔(Judea Pearl)教授认为,现在人工智能技术的发展进入了新的瓶颈期,“所有令人印象深刻的深度学习成果加起来不过是曲线拟合罢了”(All the impressive achievements of deep learning amount to just curve fitting),而且“深度学习技术是一种非常通用和强大的曲线拟合技术,它可以识别以前隐藏的模式,推断出趋势,并预测出各种问题的结果,但它仅仅停留在相关性这个层次上,也就是曲线拟合,而曲线拟合方法在表示给定数据集方面的一个风险是过度拟合,即算法不能识别出数据中的正常波动,最终会被干扰所迷惑”。珀尔认为,除非算法及其控制的机器能够推理因果关系,或者至少概念化差异,否则算法的效用和通用性永远不会接近于人类。麻省理工学院(MIT)的研究人员发表的一篇论文也指出,要创建类人的学习和思考的机器,需要它们能够构建出世界的因果模型,能够理解和解释它们的环境,而不仅仅是使用模式识别来解决问题。因此,现有的人工智能技术需要超越现在的相关性关系层次,深入探究因果关系,最终制造出像人一样思考的机器。
因果关系一直是人类认识世界的基本方式,也是现代科学的两大基石之一。自古以来,关于因果关系的研究一直吸引着人们。通过系统性观察和试验发现自然规律、探索现象之间的因果关系,一直是各种科学研究的最终目标。爱因斯坦就认为西方科学是建立在以因果律为基础的形式逻辑之上的。
相关性关系与因果关系之间的关系由莱辛巴赫(Reichenbach)形式化为著名的共同原因原理,即如果两个随机变量X和Y在统计学上具有相关性,那么其相互关系必为以下关系之一:
● X导致Y;
● Y导致X;
● 存在一个随机变量Z,它是引起X和Y的共同原因。
因此,与相关性关系相比,因果关系具有更多的信息量,体现了变量之间更本质的关系。因果推断的中心任务就是研究变量之间的因果关系:
● 分析如果某些变量被干预会发生什么;
● 分析影响干预及其结果的混杂因素;
● 分析以前从未观察到的情况的结果。
因果关系与相关性关系不同,相关性关系指的是,如果我们观测到了一个变量X的分布,就能推断出另一个变量Y的分布,那么说明X和Y是有相关性的。而因果性则强调,如果我们干预了某个变量X,且这种干预引起了变量Y的变化,那么我们才能说明X是Y的因(cause),而Y是X的果(effect)——这是因果关系的基本出发点。基于因果关系的分析方法,我们可以避免得出“制止公鸡打鸣就可以阻挡日出”这样荒谬的结论。因此,基于因果关系的预测方法比基于相关性关系的预测方法更具有普适性。我们在人工智能研究中需要寻找这样的因果关系,而不仅仅是简单的相关性关系。
除人工智能研究领域之外,因果推断在经济学、社会学、医学和法学等领域也有广泛的应用。比如,在广告界有一句广为流传的话:“我知道我的广告费有一半被浪费了,但遗憾的是,我不知道是哪一半被浪费了。”这实际上是一个衡量广告效果的问题。因为无法很精确地衡量广告的效果,所以没办法进行进一步的广告投放优化,只能白白浪费广告费。从因果推断的角度来看,如果我们把投放广告看作一种“干预”(intervention),这个问题其实就是广告投放的因果效应分析问题,需要我们通过因果推断的方法进行分析。
从数据中分析、挖掘相关性关系的研究发展迅速,相关学习资料也很多,但因果推断方面的学习资料还相对较少。国外有少量关于因果推断的书籍。Judea Pearl教授在因果推断方面有三本著作:The Book of Why: The New Science of Cause and Effect、Causal Inference in Statistics: A Primer和Causality: Models,Reasoning,and Inference。耶鲁大学Scott Cunningham教授编写的Causal Inference:The Mixtape 2021年刚出版。哈佛大学流行病学家James Robins和他的同事也在写一本关于因果推断的书,目前提供了网络版。这些书籍从不同角度对因果推断进行了介绍,并且对因果推断各个方面的问题都有比较精辟的论述,但对于因果推断的初学者而言,这些材料相对较难。因此,我希望能为对因果推断感兴趣的读者,包括人工智能、医学、法学、经济学和社会学等领域需要应用因果推断进行研究或开发的科研人员和学生,提供一本关于因果推断的入门书籍。
笔者在写作过程中参考了因果推断相关领域的大量论文和专著。关于因果推断分析的研究思路,目前主要有Donald Rubin提出的潜在结果分析框架和Judea Pearl提出的图模型分析框架。Judea Pearl对这两套分析框架的等价性进行了分析。对于因果推断的初学者,笔者认为图模型分析框架更加直观、易懂,因此,本书在因果推断的内容和编排上主要参考了Judea Pearl教授在因果推断方面的著作Causal Inference in Statistics: A Primer和Causality: Models, Reasoning, and Inference,以及Judea Pearl教授团队在各种学术期刊和国际会议上发表的论文,在此对Judea Pearl教授及其团队致以由衷的敬意。
为方便高等院校人工智能、数据挖掘、统计等相关专业将本书作为高年级本科生或研究生的教材使用,本书着重因果推断基本概念、基本方法的介绍,并且在介绍基本概念、基本方法的同时,尽量给出必要的推导、证明和说明。同时,为了便于理解,也针对主要的基本概念、基本方法提供了相关的案例及分析,以便读者通过案例分析加深对基本概念、基本方法的理解、掌握,并将相关方法应用到工作实际中。由于近年来因果推断研究进展较快,因此很多重要、前沿的内容本书还未能覆盖,读者可参考最新文献做进一步研究、探索。
本书第1章对因果推断研究的背景进行了介绍;第2章和第3章对因果推断分析所需要的基础数学知识——概率论和图模型相关知识进行了介绍;第4章对因果推断中的干预分析进行了介绍;第5章介绍了因果推断中的反事实分析及其应用;第6章介绍干预分析和反事实分析在因果关系概率计算上的应用;第7章是对干预分析、反事实分析进阶内容的介绍;第8章对基于观察性样本数据集学习变量之间的图模型结构进行了介绍;最后,第9章以推荐系统和强化学习为例,介绍了因果推断在人工智能方面的一些初步应用。
本书在写作过程中得到了Judea Pearl教授的帮助,在此表示衷心的感谢。
笔者还要感谢四川省科技计划资助项目(立项编号:2021YFG0169)的支持。虽然本书主要介绍了前人在因果推断方面的研究成果,但该项目与因果推断相关,可以将本书看作该项目的前期调研和积累,笔者个人更多的研究成果留待今后再与大家分享。同时,也要感谢机械工业出版社姚蕾老师和郎亚妹老师在本书写作和出版过程中给予的诸多指导和帮助。
随着人工智能技术的快速发展,近年来因果推断的分析、研究也取得了长足的进步,由于本人水平有限,书中难免存在错误和不妥之处,敬请各位读者给予批评和指正。
最后,我要特别感谢我的家人,是他们的爱和关怀让我克服困难完成了本书的写作。
罗 锐
2022年1月于成都