因果推断：利剑和2021诺贝尔经济学奖三剑客的故事

陈永伟2021-10-12 10:39

陈永伟/文 北京时间10月11日18点，2021年诺贝尔经济学奖得主揭晓。经济学家戴维·卡德（David Card）、约书亚·安格里斯特（Joshua D. Angrist）、和奎多·因本斯（Guido W. Imbens）共同获得这一奖项。和往年惯常的三位获奖者以相同比例分享将奖项不同，根据诺奖评委会的决定，卡德因其“对劳动经济学实证研究性的贡献”而获得了一半的奖项；而安格里斯特和因本斯则因“对因果关系分析的方法学贡献”而分享另一半的奖项。

不过，虽然诺奖评委会专门区分了三位获奖者的贡献以及获奖比例，但事实上，这“三剑客”的研究是有很多交叉的。卡德虽然是做劳动经济学的，但他用的方法主要是因果推断；而虽然安格里斯特和因本斯的获奖理由主要是因果推断，但他们也都在劳动经济学的问题上有所探究。从这个意义上讲，如果我们说这次诺奖其实就是颁给因果推断的，似乎也没有什么大问题。

那么，因果推断作为一种计量方法，究竟对经济学有什么重要意义？在现在的经济学领域，究竟有哪些重要的因果推断方法，它们又是如何被应用的？此次获得诺奖的三位究竟在因果推断领域作出了哪些贡献，又会对经济学未来的发展产生怎样的影响？对于所有的这些问题，就让我们慢慢道来吧。

因果研究简史：从亚里士多德到鲁宾

作为万物的灵长，人类天性当中就包含了对因果关系的好奇。当看到一桩新事物的时候，人们总是会不禁地问：“这东西为什么会这样？它背后的原因到底是什么？”比如，在战国时期著名诗人屈原的长诗《天问》中，就围绕天地万物运行的因果一口气提出了170多个问题。

在古人看来，因果关系是神圣的，具有极高的价值。据说，曾经有人问过古希腊哲学家德谟克里特，因果关系到底有什么价值，这位哲人的回答是，对他来说，一个因果关系的价值要胜过一个波斯的王位——尽管这个回答是出自一位哲人之口，但它确实也在一定程度上道出了因果关系在人们心中的重要地位。

由于因果关系对人们来说是如此的重要，因此至少从两千多年前开始，人们就已经开始了对因果问题的相关理论探究。例如，亚里士多德在其著作当中，就曾经提出了著名的“四因说”，把事物的原因分为了“形式因”、“质料因”、“动力因”和“目的因”，并提出了用枚举和归纳来推测因果的操作方法。到了文艺复兴时期，弗朗西斯·培根等学者则开始用归纳法来分析事物的因果。随后，约翰·穆勒则在自己的著作《逻辑体系》（注：中译由严复先生翻译，题目为《穆勒名学》）中对通过归纳确定因果关系的思路进行了详细的论证，并提出了五种分析因果关系的方法。后来，这五种方法被学界统称为称为“穆勒五法”。由于穆勒本人是古典经济学的重要代表人物，因此经济学界或许有权利宣称早在19世纪时，经济学人已经开始了对因果问题的研究。

不过，和穆勒的讨论相比，现代经济学意义上的因果关系还是有很大不同的。如果说，在穆勒时代，因果推断更多是一种基于哲学的探索，那么现代意义上的因果推断则更多是一种统计上的努力。

在现代经济学中，曾经有两个和因果相关的理论先后受到了人们的重视：

前一个理论是所谓的“格兰杰因果”（Granger Causality）理论。这种因果理论关系的是两组时间序列之间的关系。例如，我们观察了几十年的收入和消费数据，发现从收入的变化可以从统计上解释消费的变化，但反过来不行，那我们就可以说收入是消费的原因，但反之不然。需要指出的是，尽管“格兰杰因果”理论帮助其提出者克莱夫·格兰杰（Clive W.J.Granger）斩获了2003年的诺贝尔经济学奖，并且其在现实当中也有很多应用，但关于“格兰杰因果”究竟能不能属于真正意义上的因果关系，学界是一直存在争论的。并且随着计量技术的发展，“格兰杰因果”已经在学界被逐渐边缘化。

后一个理论则是由统计学家鲁宾(Donald B. Rubin)提出的基于干预效应（Treatment Effect）的因果推断理论。而如果从思想上，这一理论的源头则至少可以追溯到上世纪前半期的著名统计学家耶日•内曼（Jerzy Neyman）。

1923年，当时还是华沙大学博士生的内曼就对因果问题进行过考虑。在他看来，所谓的因果关系，应该是基于一种“干预”（treatment）进行前后被干预对象表现的差别。比如，一亩地如果不用化肥，可以产五百斤的粮；如果用了化肥，可以产八百斤，那么这中间差的三百斤就是使用化肥这个“干预”所产生的因果效应。不过，这里就产生了一个问题：从理论上讲，要看一个因果关系的大小，就应该看同一亩地在施肥这个现实状态和不施肥这个反事实（counterfactual）状态下的产量对比。但是，一亩地怎么可能比较这两种状态呢？显然这就存在一个悖论。内曼提出的一个方案是，可以用对照试验来解决这个问题。比如，可以找一千亩地，随机地把它们分成两组，把其中的一组视为“干预组”（treatment group），另一组作为“对照组”（control group）。对于“干预组”的地，都施用化肥，而对“对照组”的地，则什么也不做。最后，研究者只需要对比“干预组”和“对照组”的平均亩产量，就可以得到最终的因果效应。

应该说，内曼的方法是十分有建设性的。事实上，在他的方法提出后，就立即被很多学科采纳了。甚至在一直被认为不能进行实验的经济学领域，也催生出了实验的方法，而采用实验方法的迪芙洛（Esther Duflo）和巴纳吉（Abhijit Banerjee），也已经在几年前获得了诺贝尔经济学奖——关于这段故事，我们在先前的专栏当中已经进行了介绍，在此不再赘述。

需要说明的是，尽管实验的方法可以在很多条件下帮助我们识别因果效应，但是在很多情况下，实验根本无法进行。比如说，如果我们要分析某种食物的致癌性，那么从理论上讲，最好的办法就是找一个“对照组”和一个“实验组”，让一组人吃这种食物，另一组人则不吃，然后比较这两组人的癌症患病率。但是，除了极少数的科学狂人之外，恐怕没有人会同意这个方案，因为它实在是违背了伦理。换言之，在现实当中，是否接受“干预”很难是一个随机现象。在这种条件下，直接比较两组人的表现就不再能直接表达出因果效应。以吸烟和癌症为例，有一种理论就认为，有些人之所以爱吸烟，就是因为含有某种基因，而这种基因本身就能让人更容易得癌症。因此，表面上看起来的吸烟导致的高致癌率，其实是因为这种基因所引起的。

基于以上原因，鲁宾在分析因果问题的时候，并没有沿用内曼所建议的实验方法。不过，他保留了内曼关于因果效应的定义，认为它应该被定义为“干预”之后的实际状态与没有进行“干预”的“反事实”状态之间的区别。那么，怎么样才能计算出这两个状态之间的差别呢？他给出的方案是，如果可以创造一种环境，在控制一些因素后，让是否接受“干预”可以成为一种随机的事件，那么就可以通过比较接受“干预组”的平均表现和“对照组”的平均表现来获得因果效应了。或者更为通俗地说，尽管在现实当中，有时候我们没法进行实验，但是如果可以设法模拟出一个类似的随机试验环境，那么内曼的结论就依然是适用的。比如，如果我们可以找到两组人，通过一定的分析，认定他们从事前看选择吸烟和不吸烟的概率是相同的，那么我们就可以通过比较这两组人的癌症发病率来推断因果效应了。

鲁宾的因果推断框架一经提出，就立即引起了很多学科的重视。而经济学界显然是受到其影响最深的领域之一。在鲁宾之后，“因果推断”开始逐渐占领了经济学专业杂志，随后又开始逐渐占领了教科书，进而成为了显学。

因果推断的“五把剑”

现在鲁宾已经为因果推断的研究提供了必要的概念和框架，剩下的问题就是如何才能将这个框架进行应用。换言之，就是如何去创造一个“干预组”和“干预组”独立于其他各种因素的环境。从现有的文献看，目前经济学家们比较常用的方法主要有五种：

第一种是“倾向性得分匹配”（propensity score matching）。这种方法的提出者，就是鲁宾和他的合作者保罗·罗森鲍姆（Paul Rosenbaum）。

这种方法的思路很简单，就是如前面说的，直接从“干预组”和“对照组”当中找出两组人来，保证他们事前选择是否接受干预的概率相同，然后对其表现进行比较。

具体来说，我们可以考虑两组人的各种特征对于是否接受“干预”的影响。比如，一个人是不是抽烟会取决于很多因素，例如年龄、性别、财富、地位、工作等大量因素都会影响抽烟的概率。利用统计学的方法，我们可以把每种因素的影响大小计算出来，最后就可以计算出每个人吸烟的概率。随后，我们就可以把“干预组”和“对照组”当中概率近似的人分别拉在一起进行比较。比如，在两组人当中，都有一部分人从事前看有70%的概率可能吸烟，从事后看，确实吸了烟的人癌症患病率是3%，而没有吸烟的人的患病率是1%，那么这一批人当中，吸烟对癌症发病率的因果作用就是2%。研究者可以重复以上过程，把所有概率的人都进行一个对比，得到很多组差值，最后把这些差值进行平均，就得到了我们所要的因果效应。

第二种方法是回归分析（Regression Analysis）。如果要详细考察回归的历史，我们至少可以追溯到达尔文的那位表弟高尔顿。事实上，正是一些甚至不被他自己看好的研究催生了现代统计学中的一个重要工具——回归。

要用纯文字介绍回归并不很容易，但大致上讲，它可以被描述为一个求解条件均值的问题。举例来说，假如我们要对一个地区的房产价格及其影响进行分析。影响房产的因素很多，地段、楼层、户型、面积都会影响房价。但作为研究者，我们希望确切地知道，如果给定其他因素不变，其中的每一个因素究竟是怎么影响房价的。或者更为具体的说，我们希望把房价表示成一个由各种因素影响的公式，在每个因素前面，都有一个数字，它们都可以表示给定其他因素不变，这个因素对于房价的影响大小。得到这个公式的步骤，就是回归。

在统计当中，实现回归的方法很多，最常见的就是所谓的“最小二乘法”。很显然，如果我们所考虑的每一个因素都是一个外生给定的量，而不受其他隐藏条件的影响，那么回归就可以很好地控制那些无关紧要的因素，通过观察我们关注的因素前面的系数，就可以得到鲁宾意义上的因果效应。

第三种方法是所谓的“工具变量法”(Instrumental Variable Method)。这种方法是用来干预所谓的“内生性”（endogeneity）问题的。

如前所述，在鲁宾的分析框架当中，要求在控制了各种变量后，“干预组”和“对照组”在事前接受干预的概率是相同的。但在现实当中，干预变量很可能受到某些不能观察的因素的影响，因而即使控制了所有可以观察的变量，我们也很难构造出一个鲁宾模型所要求的那个条件。这时，我们就可以引入工具变量来进行干预。

举个最简单的例子，需求曲线可能是经济学家最为津津乐道的模型了。需求曲线是一个再简单不过的模型，它只是需求量和意愿支付价格之间的关系，而一旦有了这个模型，经济学家们就可以各种“一顿操作猛如虎”，得到很多结论。但是，问题在于有人能确切说出一个市场上的需求曲线是什么样的吗？有人可能说，这个不难啊，我们不是有市场的历史数据吗？把所有时期的数据找来，看一下每一个时期价格和市场销量的关系，用回归得到一个公式不就行了吗？但这显然是有问题的。原因很简单，在现实当中，我们看到的每个时期的销量都是供给和需求共同作用的结果，因此，我们就很难简单地把市场上的销量视为需求量。为了要把需求分离出来，我们就必须要分离出供给的影响。

那么，怎么从市场的销量当中分析出供给的影响呢？一个方法，就是寻找一个只会影响供给，而不会影响其他因素的变量，用它的变化来推测供给的变化。比如，在渔业市场上，鱼的供给量是和天气密切相关的，因此我们就可以通过统计来得到这种关系。如果我们知道了每一个历史时刻的天气状况，就可以推测出每一个时间的供给曲线。如果我们熟悉供给模型，就可以知道，随着供给曲线的外生移动，它会和需求曲线交出一个个的点，而通过这些点，我们就可以识别出需求曲线中价格和需求量之间的关系，而借助这个模型，就可以知道每一单位需求量对于消费者意愿支付的因果影响。在这个例子中，天气只会通过供给来影响销量，因此它就是本模型当中的一个工具变量。工具变量是来自于原模型之外的，但借助它，我们就可以看清模型内部的关系。

值得一提的是，在所有常用的因果推断方法中，工具变量法可能是唯一一个由经济学家原创的。之所以说是“可能”，这个方法的提出者据说是一位名不见经传的经济学家菲利普·莱特（Philip Wright），他研究的是植物油的关税这样一个小众的领域。而碰巧的是，他的儿子斯威尔·莱特（Swell Wright）却是一位鼎鼎大名的统计学家，所以究竟这个方法是父子两人中的哪一个提出的，本身就成了一桩悬案。据说，最近有一些文献计量学家们通过研究表明，菲利普·莱特是提出者的可能性更大。如果这个结论为真，那么经济学家就多少可以松一口气，不至于在高举“经济学帝国主义”大旗的同时，惊讶地发现自己才是完全被别的学科殖了民。

第四种方法是所谓的“倍差法”，或者“双重差分法”（Difference in Differences Method）。从某种意义上讲，这种方法其实是对控制实验法的一种拓展。如前所述，如果要想从一个控制实验当中识别出因果关系，那么就需要保证“干预”选取的随机性，也就是要让“干预组”和“对照组”的表现在事先是没有差异的。但是，在现实中，干预很难做到这么随机，“干预组”和“对照组”的事先表现总会有一定的差异。在这种情况下，怎么识别因果关系呢？一个办法就是，分别记录下干预发生前后“干预组”和“对照组”的两次差值，然后用干预后的差减去干预前的差。如果在干预前后，这两组对象之间差值的变化仅仅来自于干预活动的话，那么这个“差值的差”就是干预所带来的因果效应。

最早发现并应用“倍差法”的是公共卫生学家。早在19世纪，英国的公共卫生学家约翰·斯诺（John Snow）就用这个方法研究了饮水质量和霍乱之间的关系。当时，他猜测饮用水的不清洁很可能是导致霍乱的一个重要原因，但却很难找到证据。巧的是，一个“自然实验”的发生为他研究这个问题创造了条件。当时，伦敦的饮用水是由两个水厂供应的，而其中的一个水厂正好发生了搬迁，从一个水质较差的地区搬到了一个水质较好的地区。斯诺就利用这个自然实验的机会，记录下了搬迁前后两个水厂供水地区的霍乱发生率，并计算了相应的双重差分。通过分析，他就得到了水质和霍乱发生率之间的因果关系。

第五种方法是所谓的“断点回归设计”（Regression Discontinuity Design）。这个方法最早是由心理学家坎贝尔（Donald T. Campbell）和西斯尔维特（Donald Thistlewaite）共同提出的。这个方法的要义是：一个干预的发生与否，是和某一个指标的断点相关的。这时，我们只需要比较一下这个断点两边对象的相关表现就可以得到因果关系。

例如，我们是不是能上大学，能不能上重点大学，主要就是看分数。假设在某一年，高考录取线是500分，那么这个分数之上的人就可以上大学，而低于这个分数的就不能上大学。但是，我们知道在现实中，高考分数是有很强的随机性的，考501分的人和考499分的人，水平很可能是难分伯仲的。因此，把断点两边的人对照起来看，我们就创造了一个近似的控制实验环境。如果我们对上大学的教育回报率感兴趣的话，只要比较一下这两个群体的人的收入，就可以找到答案了。

好了，有了倾向性得分匹配、回归、工具变量法、倍差法，以及断点回归设计这五把“利剑”，经济学家们就可以在实践当中将鲁宾的因果推断框架切实落地了。而在应用和发展这些工具的经济学家当中，这次斩获诺奖的“三剑客”毫无疑问都是其中的佼佼者。

戴维·卡德：为哈佛打官司的经济学家

2014年，美国知名学府哈佛大学遭遇了一场飞来的官司。维权人士布卢姆经营的非营利组织SFFA提起诉讼，指控哈佛大学涉嫌种族歧视，并故意压低亚裔美籍学生的录取数量。布卢姆指出，哈佛大学在招生过程中过度使用了“种族平衡”策略，并根据种族设立了录取配额。依据美国最高法院裁决案例，这被判定为违反宪法的种族歧视行为。

一旦指控成立，哈佛就可能招来高额的处罚，可谓兹事体大。为了维护学校的声誉，哈佛不得不认真应战。要打官司，当然要提供相应的证据，而要打这样一场涉及歧视的官司，哈佛就需要找一位具有足够资治的专家来论证，看似压低亚裔数量的行为其实是可以用某些因素解释的，并没有涉嫌歧视。但是，这个论证应该请哪个专家来完成呢？很多人认为，哈佛本身就是经济学重镇，有大量著名的经济学家，这个重任应该是由某个本校的学者来完成吧。但出人意料的是，哈佛最终是请来了加州大学伯克利分校的戴维·卡德，也就是此次诺奖的第一位“剑客”来担任专家证人。卡德也确实不负众望，写出了一份近200页的报告，对哈佛招生的合理性进行了全面的论证，并用经验证据对布卢姆进行了有理有利的驳斥。不久前，法院已对这个案件作出了判决，法官认定，在招生过程当中，哈佛并不存在原告所指控的歧视现象。哈佛能得到这个结果，卡德可以说是功不可没。

或许有人要问，哈佛这么一个名校，为什么放着自己本校这么多知名教授不请，非要专门去请卡德出山？我想，其原因可能有两个方面：一来是哈佛本校的老师毕竟有利益冲突，要避嫌；二来是，对于这类案件，卡德或许本来就是最为合适作为专家证人的了。事实上，如果要讨论歧视等劳动力市场的问题，那哈佛还真可能找不出名头上能和卡德匹敌的学者。

卡德1956年出生于加拿大，1978年在加拿大皇后大学获得学士学位，1983年获得普林斯顿大学的经济学博士学位，毕业后就进入了芝加哥大学任教。此后，他先后辗转于普林斯顿、哥伦比亚、哈佛等顶尖学府，并最终“落户”伯克利，随后执教至今。从研究领域上看，卡德是一位标准的劳动经济学家。在劳动经济学的重大问题，比如最低工资、教育回报、移民，以及歧视等问题上，卡德都颇有建树。1995年，他曾经以自己在劳动经济学领域取得的贡献，获得过有“小诺贝尔奖”之称的贝茨·克拉克奖。

在卡德所有的研究当中，最为有名的一个应该是他和已故的经济学家艾伦·克鲁格（Alan Krueger）合作的关于最低工资的研究。在经济学界，最低工资制度一直是保守争议的。尽管最低工资的倡导者们一直强调这个制度可以为劳动者提供必要的保障，但很多持自由放任观点的学者却一直对此表示反对。比如，在华人世界非常著名的张五常教授就一直将最低工资和劳动合同法斥为是恶法，并呼吁废除它们。为什么放任派的经济学家这么反对最低工资制度呢？原因是他们认为，这可能带来失业率的增加。其逻辑很简单：当最低工资增加时，一部分企业就需要以更高的成本来雇佣员工，这就会让它们减少雇佣。最终，市场上的劳动力需求减少了，这个减少就会带动失业的增加。根据这个逻辑，最低工资虽然可以保障一部分人的权益，但是它事实上是以牺牲了其他人的就业权益为代价的，从社会整体的角度看，它可能是不合算的。

尽管经济学界围绕着最低工资问题争论了很长时间，但在大多数时候，相关的争论都停留在理论层面。而现实中的最低工资究竟会不会产生人们所担忧的提升失业率的后果，这一点其实一直都不能被证实或者证伪。为什么呢？其实这就回到了我们前面讲的因果推断问题。从理论上讲，实施最低工资法，就是对一个地区劳动力市场的一次干预。如果要考虑这个干预给劳动力市场带来的影响，最好的办法就是比较有干预的现实情况和没有干预的“反事实”情况，但显然，这两个情况不可能同时存在。

因此在现实中，所谓的经验研究也只能根据某个地区的最低工资法出台前后，就业率的变化来提供一些相关的证据。但很显然，这些证据是不能令人信服的，因为在干预发生前后，有很多因素都变了，它们都可能影响就业率，其中最低工资的影响到底有多大，可能谁也说不清。直到卡德和克鲁格的研究出现，这个问题才得到了一个比较确定的解答。

卡德和克鲁格的研究是基于一次“自然实验”，利用“倍差法”完成的。1990 年代初，新泽西州的最低小时工资从 4.25 美元提高到 5.05 美元，但与此同时，与新泽西州相邻的宾夕法尼亚州则没有进行相应的调整。在这种情况下，新泽西州和宾夕法尼亚州的劳动力市场就分别构成了“干预组”和“对照组”。卡德和克鲁格分别搜集了新泽西的最低工资法出台前，两州的快餐店雇佣状况，以及其他一些劳动经济学家们关心的变量。很显然，由于两州的情况是有差别的，因此这些变量在事先就有一定的差异。但在新泽西的最低工资法出台后，这个差异就发生了变化。根据我们在上一节中的讨论，这个“差值的差”，就可以视为由最低工资法所带来的因果效应。

卡德和克鲁格发现，最低工资法的实施让新泽西快餐店的平均工资显著增加了，但与此同时，它并没有带来显著的失业率上升。这个证据表明，最低工资法可能带来的负面影响，或许要比理论预计来得小得多。由于这个发现在相当程度上违背了当时劳动经济学家们的共识，因此即使卡德和克鲁格本人也对此表示了惊奇。随后，他们有进行了一系列的研究，试图找出这种“异常现象”的原因，并得出了几种可能的解释：一种解释是，当企业遭遇最低工资制度后，可以通过更高的价格将增加的成本转嫁给消费者，因此它们并没有必要减少雇佣。另一种解释是，如果有企业主导了一个地区的劳动力市场，那么它就可以利用市场力量将工资保持在最低水平。此时，最低工资的增加就会激励更多的人参加工作，从而造成劳动力供给的增加。在供求两方面因素的综合作用之下，最终的均衡就业数量就可能是上升的。

在卡德和克鲁格的以上研究发表之后，立即在经济学界引起了震动。其原因，有一部分是因为它动摇了最低工资有负面影响这个劳动经济学领域的长期认识，但更重要的是这个研究引入了一次方法的革命。从此之后，“倍差法”这个在公共卫生领域已经被使用了两百年的方法终于进入了经济学，从此之后，即使有学者要再和卡德争论最低工资问题，他恐怕也不得不采用类似的办法了。

卡德的另一个研究是关于移民的。众所周知，美国是一个移民国家，但移民问题在这个移民国家却是十分敏感的。很多美国人认为，新移民的到来，会带来很多负面的影响。例如，他们可能挤占本地的劳动力市场。在现实中，类似的观点对美国的联邦和州政府的决策都产生了很大的影响，但问题是，这些关于移民影响的直观认识究竟是不是真的呢？在很长时期内，似乎也没有什么确切的答案。

为了研究这个问题，卡德以另一个“自然实验”为切入，再次祭出了“倍差法”这把利剑。历史上，古巴曾经和美国长期处于十分紧张的关系，卡斯特罗当局一直都禁止本国人移民到美国。但在1980年4月，古巴政府却出人意料地松动了这个政策，允许有移民意向的本国居民自由移民。政策调整之后，从当年5月到9月，就有12.5万名古巴人移民到美国。他们中的很大一部分都选择定居在了迈阿密。这一冲击导致迈阿密的劳动力数量增加了大约7%。很显然，古巴移民政策的调整，以及移民对于居住地的选择，就天然地提供了一个自然实验的机会——受到移民冲击巨大的迈阿密就可以被视为是一个“干预组”，而受到移民影响较小的几个邻接地区则可以被视为是“对照组”，对这两组之间利用“倍差法”，就可以得到移民增加对各种经济变量带来的因果效应。

卡德先是用这个方法考察了移民对本地劳动力市场的影响，由于移民可能影响的主要是本地的低教育水平劳动力，所以卡德将关注的主要点集中在了他们身上。结果发现，尽管迈阿密市的劳动力供应大幅增加，但其对受教育程度低的迈阿密居民没有负面影响。与其他地区相比，工资没有下降，失业率也没有增加。很显然，这个发现打破了很多人对于移民问题的传统认识。

卡德的另一项重要研究来自于教育质量的回报。长期以来，教育质量究竟会给受教育者带来怎样的影响，一直是一个备受争议的问题。一些人认为，教育质量会对人的发展产生长期的影响，而另一些人则认为，即使教育质量的短期影响是存在的，这种影响也会随着时间衰退。但是，如果想要对以上这个争论进行实证考察，却会面临很大的困难。第一个困难是，人们所说的“教育质量”究竟是什么？它究竟能用什么指标来进行量化？第二个困难是，在研究收入和教育的关系时，可能遭遇严重的内生性问题。具体来说，一个有钱人家的孩子很容易进入到好的学校，但他们即使不去好的学校，也会比一般人家的孩子更容易找到工作，赚到更多的钱。因此，我们即使看到了有人上了好学校，然后找了好的工作，也不能在上好的学校和找到好工作之间建立因果关系。除了以上两个困难之外，由于教育和人的职业发展之间存在着很大的时间间隔，其中会发生很多事情，这也会对相关的研究结果产生很大的影响。

为了克服以上困难，卡德和他的合作者克鲁格一起做了很多的工作。为了防止陷入空谈，他们先是将教育质量量化为了学生与教师的人数比、学期长度，以及教师平均工资等指标，并构造了相应的数据库。为了排除其他因素的影响，他们将关注点主要集中在处于同一劳动力市场，种族、收入水平一致，但接受教育的时间、地点不同的工人之间收入的变化。通过前面的讨论，我们很容易知道，他们的这种努力，其实是在努力构造一个模拟的实验场景，以尽可能消除除了教育质量之外，其他因素对人们的长期收入的影响。通过一系列的研究，他们发现，学校资源不仅可能对人的未来产生影响，而且其效应是十分显著的。在同一个劳动力市场的类似工人当中，那些接受过更高“教师密度”教育的人，将在未来取得更高的收入。

值得一提的是，虽然卡德对于劳动经济学的贡献毫无疑问，但他的很多研究事实上是和克鲁格一起完成的（事实上，安格里斯特的很多研究也是和克鲁格合作的）。如果不是克鲁格前几年因为自杀身故，那么他应该有很大概率会和卡德一起获奖。

安格里斯特：功夫经济学家

我们的第二位“剑客”是约书亚·安格里斯特。他于1960年出生于美国俄亥俄州。从他的名字，我们就不难猜测到，他是以色列裔。1982年，22岁的安格里斯特以优异的成绩从美国最好的文理学院之一——欧柏林学院（Oberlin College）毕业。此后，他进入普林斯顿大学深造，并先后于1987年和1989年获得该校的硕士和博士学位。毕业之后，安格里斯特曾先后任教于哈佛大学和以色列的希伯来大学。从1994年开始，他受聘于麻省理工学院，直到现在。作为一名经济学家，安格里斯特曾经获得过很多的荣誉。例如，2011年，他曾经获得过冯·诺伊曼奖，而在2013年，他则被汤森路透评为“引文桂冠奖”。

在今年经济学诺奖的三位得主当中，约书亚·安格里斯特（Joshua Angrist）可能是知名度最高的一位——至少在中国，应该是这样。这不仅因为他曾经几次来过中国讲学，更是因为他和皮斯克合著的两本关于因果推断的教科书——《基本无害的计量经济学》（Mostly Harmless Econometrics）和《精通计量学》（Mastering Metrics）都已经成为了经济学系的学生们学习这一领域的最重要参考书。从这两本书的编排当中，我们就可以看出，他在业余生活中是小说《银河系搭车客指南》的忠实读者，以及一名中国功夫谜（注：“基本无害”是《银河系搭车客指南》一书中的梗，而在《精通计量学》一书当中，他则把学习计量经济学比作了修习功夫，并用了大量《功夫熊猫》当中的梗）。由于安格里斯特学术水平过硬，又有一个有趣的灵魂，所以在学生中口碑甚好。在中国学生圈里，很多人都喊他叫做“安神”。

如果要用一句话概括安格里斯特的学术生涯，那就是关于因果推断方法的各种使用。事实上，在我所能想到的安格里斯特的论文当中，几乎都是用因果推断来分析各种各样的问题的。而且和很多经济学家不同，他在使用这些方法时，总能别出心裁，玩出新意。从研究议题看，安格里斯特的主要领域还是集中在劳动经济学，尤其是和教育相关的议题，更是他关注的重中之重。下面我们就挑几个例子，详细地介绍一下“安神”究竟怎么耍功夫，把研究变得有趣。

第一个例子是教育回报率的研究。“多读书到底可以带来多大的回报？”在劳动经济学领域，这是一个老生常谈的问题。早在上世纪70年代，教育经济学家雅可比·明瑟（Jacob Mincer）就对这个问题进行过大量的探究，并提出了著名的“明瑟收益率”（即多受一年教育所能带来的收入增加）的概念。当时，受到计量工具的限制，明瑟的研究大多是直接采用回归的方式进行的，即在控制了工作经验以及其他一些变量之后，直接看教育对收入的影响。但是，通过前面的讨论，我们知道，这种研究思路是有着严重的内生性问题的。

在现实当中，一个人受教育多一点还是少一点，并不是一个外生给定的变量，相反，它会受到很多难以度量的因素的影响。例如，一个家庭对于教育的重视就可能影响孩子的受教育水平，而这种影响因素是很难被用可见的值度量的，因此在回归当中也就很难被控制。既然这些因素都不能被控制，那么鲁宾模型所要求的实验环境就很难达到，我们也就很难通过简单的回归来进行因果识别。

面对类似的问题，应该如何进行处理呢？一个很直接的方式，就是找一个工具变量，它是一个外部的变量，只能对受教育时间产生影响，但不直接影响收入。如果找到了这样一个变量，我们就可以借助前面介绍的“工具变量法”来对这个问题进行分析了。但问题是，究竟上哪儿去找这样一个工具变量呢？这样的问题当然是难不倒“安神”的。在和克鲁格合作的一篇论文当中，他找到了一个神奇的工具变量——人们的生日。

为什么生日能作为受教育时间的工具变量呢？其根本原因就来自于美国的义务教育制度。根据美国的义务教育法，所有年满6周岁的学龄儿童，都必须在该年的9月份入学接受教育。并且只有当年满16岁的时候，学生才有权选择辍学离开学校。在这个规定之下，就产生了一个问题：出生时间不同的孩子，入学年龄和受教育的时间很可能是不一样的。一般来说，一个孩子如果出生的月份早，那么他在入学的时候，平均年龄就会比较大；而如果出生的月份比较晚，其入学时的平均年龄就会比较小。具体来说，如果孩子出生在第一季度，那他们在上学的时候平均岁数大约是6.45岁，而如果孩子出生在第四季度，他们入学时的平均年龄则只有6.07岁。而他们被允许辍学的年龄却是一样的，因此如果不同时间的孩子最终都选择辍学，则出生月份较晚的孩子所必须接受的教育就会比出生月份较早的孩子来得多。极端的，我们可以对比一个1月1日出生的孩子和一个12月31日出生的孩子，如果两个人最终都辍学，那么后一位必须接受的教育将会比前一位多上近一年。

有了这样的特征，那么出生时间就具备了称为工具变量的资格了。显然，它会影响人们的受教育时间，但不会直接影响收入或者其他的什么量。这样一来，通过工具变量法，就可以考虑教育时间对收入的影响了。通过以上分析流程，安格里斯特和克鲁格发现，给定其他因素，额外1年的教育，将会让收入会增加 9%——这充分说明，多读一年书，对人的未来发展还是有好处的，至少在义务教育阶段，情况可能是这样。

第二个例子是关于班级规模影响的研究。究竟是大班教育好，还是小班教育好，这在教育经济学和劳动经济学领域都是一个争议多年的问题。一些人认为，更为小班化的教育将会显著提升教育的质量；而另一些人则认为，小班化的教育除了浪费教育资源外，并不会带来什么实质性的影响。

或许有人会说，检验这么个问题还不简单？直接找一批在大班接受教育的学生，再找一批在小班接受教育的学生，比一比他们在各种表现上的差别不就可以了？问题当然没有这么简单。在现实当中，进入大班的学生和进入小班的学生显然是不一样的。一般来说，那些能够进入小班接受教育的，都是家庭条件比较好，本身资质也比较好的学生。如果直接把这两群人的各种表现来进行比较，那么与其说得到的是班级规模的因果效应，不如说是其他各种因素的影响效应。

那么，“安神”怎么处理这个问题呢？事实上，读者如果仔细看了前面的介绍也应该很容易想到答案——就是用录取分数这个断点。由于小班在很多时候都被认为是精英化的教育模式，因此很多时候孩子要想进入小班进行学习，就必须经过考试并达到一定的分数要求。在这种情况下，分数线就可以成为是否接受小班化教育这个干预的一个“断点”。和前面讨论的一样，我们只需要比较断点两边对象的相关表现，就可以得到小班化教育的影响。利用这一思路，安格里斯特和几位合作者进行了很多研究。结果都表明，小班化确实可以带来很大的收益。当班级变小后，孩子的成绩会出现明显的上升，由此会带来很大的经济收益。比如在一项研究当中，他发现如果把班级的规模从22人减少到15人，就可以获得5.5%的内部回报率。应该说，从经济角度看，把班级做得小而精一些，或许是更为有利的。

第三个例子是家庭劳动供给问题。近年来，劳动经济学的研究越来越趋向了微观化，而家庭结构对于劳动力供给的影响，就是一个热议的话题。很显然，如果家庭的结构不同，其对于劳动力的供应也会出现不同。

举例来说，如果一个家庭选择了“二胎”，那么从直观上看，相比于不要“二胎”的家庭，这个家庭将更有可能选择减少对市场的劳动力供应——因为这个家庭要花费更多的时间来照料孩子。但是，我们是不是就可以说，更多的孩子会成为更少的家庭劳动力供给的原因呢？这倒未必。为什么呢？原因在于，家长们选择生几个孩子，以及选择是不是上班这两个决策之间并不是相互独立的。事实上，他们相互交织，很多人之所以愿意生“二胎”、“三胎”，很大原因就是因为他们更重视家庭，不愿意多工作。再这种情况下，要确立孩子数量以及家庭劳动力供给之间的因果关系就不那么容易了。

那么怎么解决以上的问题呢？“安神”给出的答案还是找工具变量。这次，他找到的工具变量更为神奇，是头两个子女的性别。他认为，对于家长来说，头两个孩子的性别，对于家长是不是决定继续生孩子会产生很大的影响。如果头两胎就实现了儿女双全，那么家长多半会很满意，从而就此作罢。但如果是同一性别，那么家长可能会觉得有缺憾，一定要继续生孩子以补齐儿女双全。因此，这就可以被用来作为子女数量的一个工具变量。利用以上思路，安格里斯特考察了子女数量与家庭劳动力供给之间的关系，结果表明随着孩子数量的增加，家庭中的女性将有可能减少劳动力供给。但是，对于不同女性来说，这种效应是不同的，相比于那些教育程度较低的女性，这种效应在受过高教育的女性身上就不是那么的显著。很显然，这个研究的结果说明，传统的基于性别的家庭分工目前依然是存在的，但是教育的普及很可能会在未来打破这种传统。

奎多·因本斯：因果推断领域的探索者

我们要介绍的第三位“剑客”奎多·因本斯是一名荷兰裔。1963年，他出生于荷兰的格德拉普（Geldrop）。1983年，他从荷兰的伊拉斯谟大学毕业，获得学士学位。随后，他先后进入了英国的赫尔大学和美国的布朗大学求学，并获得了硕士和博士学位。1991年博士毕业之后，他就进入了哈佛大学执教，直到1997年离开。此后，他相继任教于加州大学洛杉矶分校和加州大学伯克利分校，并曾在亚利桑那州立大学和欧洲大学学院访学。2006年，他再次回到了哈佛大学，并在此执教6年后再度离开。从2012年至今，他一直是斯坦福大学的教授。

虽然按照诺奖委员会的安排，因本斯此次是和安格里斯特一起由于在因果推断方面的成就而分获一半诺奖，但坦白说，这两位学者在研究风格上是存在巨大差异的。在相当程度上，安格里斯特是在“玩”因果推断，是在用别人发明的工具实现自己有趣的设想；而相比之下，因本斯则是在“做”因果推断，是在把因果推断的相关理论不断完善化，让它们变得更加实用和可靠。

需要说明的是，因本斯作为一名计量经济学家，其研究的领域绝不仅仅限于因果推断领域。例如，笔者在博士期间，就曾经在高级统计学课上仔细学习过他关于广义矩估计（GMM）以及经验似然估计的两篇论文。尽管这两篇论文讲了什么，我早已完全忘记了，但是直到现在我还记得老师告诉我们它们是在相关领域具有奠基性意义的。除了在这些方面的贡献外，他在非参数估计、贝叶斯统计，以及限定变量的回归等问题上，都有很多的贡献。我想，如果要全面归纳因本斯的贡献，那么这些工作也应该要算上。

具体到因果推断的领域，我想，因本斯的贡献主要可以归纳为三个方面：

一是对现有的方法进行合理的解释。比如，我们前面讲到，莱特父子很早就发明了工具变量法，而在后续的发展当中，经济学家也早已对这一方法熟练应用了。但是，在鲁宾的因果推断模型在经济学界占据主导地位之后，一个问题就出现了，那就是如何将早已有的工具变量法重新纳入到这个分析框架当中，用新的框架对传统的方法进行重新的解释。

为了解答这个问题，因本斯和安格里斯特专门合写了一篇论文，把工具变量的选择和应用重新解释为了在鲁宾的框架下，构造一个对比实验环境的过程。然后又在此基础之上重新推导了使用工具变量法进行分析时经常用到的“两步回归法”。通过这些工作，工具变量法就被成功地纳入到了鲁宾的分析框架当中。

二是对已有的方法进行完善。因果推断作为计量方法，在实践当中经常会遇到这样或者那样的问题。这时候，作为“裱糊匠”的计量经济学家们就需要挺身而出，对方法进行修补，让它们可以更好地在现实当中被应用，而作为杰出的计量经济学家，因本斯显然没有少干类似的工作。

一个例子是对于倾向性得分匹配的完善。在前面，我们已经介绍过这种方法的大致思路，就是先用是否接受干预对研究对象的各种特征进行一次回归，从而找出各种因素对接受干预概率的影响，然后对每个观察对象都计算出一个“倾向性得分”。通过比较“干预组”和“对照组”中“倾向性得分”相近的对手的表现来计算因果效应。这个思路看起来很直观，但在具体应用时却有难度。举例来说，在一些情况下，观察对象是相对较少的，而可能影响是否接受干预的因素却很多。这时，第一阶段通过回归来确定影响因素，进而计算“倾向性得分”就会有技术上的困难。对于这个问题，因本斯在一篇论文当中进行了讨论，并通过调整协方差的办法对此进行了克服。

三是对现有的方法进行拓展。应该说，鲁宾给出的分析框架，以及经济学家们现在运用的各种工具都是相对简单的，很多时候，这些工具都不足以成功应付复杂的现实。这时，计量经济学家就需要对已有的工具进行拓展，以帮助经济学家们完成相关的分析。举例来说，在经济分析中，经济学家们除了分析一个变量对另一个变量的平均因果效应外，还经常关注一个变量对另一个变量某一分位数上的影响。

比如，在考察收入分配时，我们可能会关心如果出口增加一个单位，会对收入处于下20%分位数上的人群的收入产生怎样的影响。在过去的实践当中，经济学家已经发明了所谓的“分位数回归”来处理这个问题。但需要指出的是，分位数回归用的并不是我们通常意义上的回归分析，也很难套用鲁宾的因果推断框架。不过，在进行“分位数回归”的时候，它也可能会遭遇所谓的内生性问题，也可能需要用工具变量。在这个时候，工具变量应该怎么用，结果应该怎么解释，这些问题就都涌现了出来。而在一篇论文当中，因本斯就专门讨论了这个问题，从而比较好的把工具变量在分位数回归当中的应用，以及相关的注意点说明白了。

这里尤其需要指出的是，在大数据时代，因本斯非常注意将机器学习等新方法吸收到因果推断的框架当中来，帮助改进因果推断的质量。举例来说，传统上，一个经济学家要寻找一个合适的工具变量是十分困难的。而在大数据时代，依靠机器学习的思路，人们就可以很容易找到工具变量——甚至在很多时候，还一下子能找到很多个。在这种情况下，怎么用机器学习的手段才能更有效率地找到我们要的工具变量，面对多个工具变量的时候应该怎么进行取舍，就都成了问题。而因本斯和其夫人合作的一系列论文中，就对相关的问题进行了讨论。

说到这里，我想就不得不花一点时间说几句因本斯的太太，她就是经济学界著名的天才级女性苏珊·阿西（Susan Athey）。如果读者的记忆力足够好，应该记得去年介绍米尔格罗姆的时候，笔者曾提到过这个名字。是的，她就是米尔格罗姆最为骄傲的学生。和一直坚守学术圈的因本斯不同，阿西对现实中的经济发展，尤其是数字经济的发展十分重视，并曾亲自到微软等大型平台公司任职。我想，因本斯会对机器学习等新的工具感兴趣，并把它们应用到自己熟悉的领域，恐怕有很大一部分原因是来自于他这位贤内助吧。从这个意义上讲，尽管因本斯和阿西相互切磋经济学知识一事本身是一个家庭内的信息交流，但它也在一定程度上说明了不同领域的信息交流可能会带来技术进步这个事实。

因果推断和经济学的未来

不管我们是否愿意承认，因果推断现在已经在经济学界占据了统治地位——至少在微观领域，这一点几乎是不可辩驳的。可以预见的是，随着大数据时代的到来，当学者们不断地将机器学习和因果推断这两大领域相结合之后，因果推断对于经济学的统治将会越来越坚固。在很大程度上说，这是一个令人欣喜的现象。很多长期以来在经济学界模棱两可、争议不断的问题或许都可以通过因果推断的方法来加以检验，从而给出评判。但与此同时，也有很多人给出了疑虑，因为在因果推断带动实证经济学取得繁荣的同时，经济学理论却在很长时间内没有取得明显的发展了。现在的经济学博士生用的，依然是马斯克莱尔的微观经济教材，以及萨金特的宏观经济教材，和二十年前完全一样。这就是说，在这二十年内，理论界并没有产生巨大的突破。这究竟是说明现在的经济学理论已经臻于完美，只需要通过实证加以印证，还是说明了什么其他的问题呢？

我们当然承认因果推断等实证方法的作用。但如果我们从本质上思考一下因果关系，就可能感到细思恐极。如果从哲学的角度看，事物之间的因果其实无非是我们的理性通过知性的范畴，对几个现象之间进行的重新组织。根据这个观点，我们的心中有一套什么样的理论，组织起来了什么样的范畴，得到的就可能是什么样的因果关系。具体到经济学，无论是哪一种因果推断模型，其最终的结果很大程度上是取决于我们的设定的，而如果依据的理论不同，设定就不一样，最终得到的因果效应也就可能不同。

德国哲人康德曾经说过：“我们在事物上先天地认识到的东西，只是我们自己放进事物的东西”。如果我们已经不再把理论放进事物，而只是借助于现有的框架来认识事物，那么依靠更多的数据，更好的工具，我们就能更好地认识经济现象吗？对于这一点，我是怀疑的。基于这一点，我更希望现在方兴未艾的因果推断可以作为经济理论发展的推进器，而不是被用来彻底替代理论的地位。或许只有这样，整个经济学才可能有真正的发展。