
《The Effect》是一本关于因果推断的教科书,特别是使用观测数据进行因果推断。我们想知道
我认为他们只是想摆脱这件事。
这就是本书的目的。在本书中,我将探讨什么是因果研究问题,以及一旦我们有了这样的问题,如何进行艰苦的工作来回答这个因果研究问题。
我会在大幅减少方程和证明的同时做到这一点。因果推断绝对有技术层面的内容,我们在这本书中也会涉及到一些。但当你与实际从事因果研究的人交谈时,他们会首先直观地思考这些问题,而不是从数学角度出发。他们会讨论关于现实世界的假设是否合理,以及数据背后的故事是什么。在这些问题确定之后,他们才会担心方程和统计属性。设计良好的研究和证明(甚至理解)统计定理是不同的任务。我认为应该按照这个顺序来介绍。
在本书的第一部分《研究设计》中,我将介绍识别的概念——即找出数据中包含答案的部分,以便开始挖掘。这需要我们利用对世界运作方式的理解,来进一步学习。通过前半部分的学习,你将了解回答研究问题需要做些什么——你的研究设计是什么!或者,如果你愿意,你将学会如何判断是否应该相信他人提出的因果主张。他们需要做些什么来支持这一主张,他们做到了吗?
书的第 I 部分非常棒。你会爱上它的。到目前为止,我已经读过很多关于因果推断的书籍,我认为没有哪本书能与之媲美。我妈妈非常喜欢这本书的第一部分,而她对统计学过敏。
本书的第二部分《工具箱》更具技术性。在《工具箱》中,我介绍了进行因果推断时可能会用到的标准工具集。其中一些是统计工具,比如回归分析。其他则是常见的研究设计,这些设计在回答许多研究问题时都证明是非常有用的,比如差分法。
当然,我说它更技术性,但重点仍然在很大程度上依赖于直觉。我永远不会试图通过数学证明来向你推销一种方法。相反,我的目标是让你理解这些方法试图做什么,为什么它们有用,以及何时可以使用它们。然后,我想帮助你学习如何执行这些方法,在 2020 年代,这意味着如何用 R、Stata 或 Python 编写代码。本书第二部分有大量的代码示例。
我希望你在读完本书第二部分后能感到自信——准备好实施这些方法,并理解在使用它们时会发生什么。只要稍加努力,我相信你可以做到。
我确实有偏见,但我认为这本书非常有趣。写这本书很有趣,而且我认为读起来也会像一本因果推断教科书那样有趣。它将带你游览各种方法和各种研究。因果推断是一个混合领域,涵盖了医学、流行病学、经济学、社会学、政治学、金融、数据科学等等的重要贡献。我的专业背景是经济学,所以你知道我的立场,但我可以保证在这本书中我会涉足所有这些领域。希望你能和我一起。
当我在大学时,我接触到了最基础的因果推断方法。但即便如此,这些方法对我来说也像是一种真正的力量。这些工具和思想是那种如果你正确使用,就能让你从知识的消费者变成生产者的东西。你可以找到别人没有答案的问题的答案。你可以自己弄清楚世界是如何真正运作的。我认为这真是太酷了!
那是我在你阅读这本书时希望你牢记在心的力量。我想在每一页都明确指出的是:这本书中的方法并不是用来粗暴地敲打数据,直到得出答案的钝器。
2 幸好它们不是——如果这些方法可以盲目应用而不需要真正理解,那么在你读完这本书之前,早就有人编写了一个计算机程序,能为你完成所有这些因果推断的工作,那你可就白费时间了。
它们被设计用来作为研究者对世界理解的延伸。它们利用我们所知的信息,告诉我们如何能学到更多,以及为了做到这一点我们需要做出哪些假设。
所以不要将因果推断视为一项技术任务。虽然其中包含技术元素,你也需要做一些技术工作,但这并不是重点。将其视为一项推理任务。你知道什么?你可以依赖什么理论?以及你如何利用这些知识将混乱无序的数据转化为有用且富有洞察力的信息?
我是一名教授。有人试图向我推销教科书,所以我知道是怎么回事。每本教科书都是新的、不同的,并且确实提供了学生可以抓住的真实世界案例,不像那些孩子们讨厌的陈旧乏味的书!然后你读了之后发现,它和别的书完全一样,只是用的库存照片和《纽约客》漫画与竞争对手不同而已。
这本书确实在几个主要方面有所不同,我保证!首先,没有库存照片。但差异不仅仅是表面的,而是结构性的。我猜你要么会认为这本书是你多年来一直等待的完美教学工具,要么会认为它完全走错了方向,完全关注了错误的事情。
3 更不用说所有我遗漏的内容了。如果你的最爱因果或统计方法没有入选,我深表歉意。我保证,每一处从大纲中删减的内容都让我痛苦不堪。
我们最终得到的是一本在其主题范围内相对易读的书籍,且并未因此在严谨性或广度上有所欠缺。其难度水平适合作为本科生因果关系、观察方法或应用计量经济学课程的教材。根据课程设置,它也可用于这些课程的研究生版本。结合更技术性的材料,您可能会发现它对博士课程也有阅读价值。书中第一部分《研究设计》的选读内容,也适合希望讨论因果关系的高中统计课程使用。
使用这本书的方法有很多,但我自己组织课程的方式是,用前三分之一的时间讨论识别的概念以及如何使用因果图来弄清楚识别问题。然后,课程的 latter 部分会深入具体的 methods,并有大量机会阅读和复制使用这些方法的现有研究。作业和视频材料可在教材网站 theeffectbook.net 上找到。
那么,是什么让这本书如此与众不同呢?
第一个不同点在于数学的难度。与现有的因果推断教材(当然也包括现有的计量经济学教材)相比,这本书在方程式方面的内容非常少。根据我的经验,即使在擅长数学并能解答数学问题的学生中,因为方程式而理解某个方法的学生比例也非常小。
4 但是那些真正从方程式中获得理解的学生,包括我自己,更有可能成为教授,从而产生一个问题……
但是如果你知道一个方法试图做什么,那么当你接触到方程时,它们就不仅仅是需要解决的作业问题,而具有更深层的意义。
本书的优先级是将对研究设计的概念性理解置于首位,远高于其他任何内容。第二优先级是实施能力。这意味着编写代码来执行这些方法,以便你能够亲身体验它们的作用和表现。好处是:如果奏效,学生将理解他们在做什么以及如何去做。此外,我还可以介绍比典型教科书更先进、更前沿的方法,而那些教科书通常会期望完整地阐述整个数学基础。
一个缺点——而且确实是一个真正的缺点——是这并不能让学生为研究生统计方法课程中的证明写作做好准备,也不能让他们开发自己的估计量。然而,我怀疑即使是对那些即将进入研究领域的学生来说,这也不是他们大多数人的目标。
第二点不同在于对因果关系的理论方法。本书不仅重点介绍了因果推理方法,还深入探讨了因果推理概念。因此,它为这些概念提供了理论基础!
在因果推断中有两种主要的理论框架可供选择。一种是潜在结果框架,主要与唐纳德·鲁宾相关,另一种是结构因果模型/因果图框架,与朱迪亚·珀尔相关。
我在这里做了两个可能引起争议的选择。第一个是几乎完全省略了潜在结果框架。潜在结果的逻辑确实在书中多次出现,但我从未正式介绍这个模型。为什么?因为潜在结果擅长的事情——澄清“缺失数据”问题,处理治疗效果的平均值,表达可忽略性条件——要么我不做,要么我用我认为对学生更直观的方式来做。我以前给本科生教过潜在结果。直觉是有帮助的;数学是障碍。我取我所喜欢的!
所以我在很大程度上使用因果图框架。第二个有争议的选择是使用我所谓的“轻量级因果图”。不涉及 do-演算,我会做一些有助于清晰理解但并非正式因果图设置部分的事情,比如偶尔在图上包含函数形式术语。
这两个选择都意味着对于那些想要继续深入学习这些方法的学生来说,将会有一些额外的工作要做。但希望他们能非常清楚地理解他们想要做什么。我希望你能同意我的观点,尽管我略去的内容是有价值的,并且从长远来看值得了解,但将其留到以后再学是正确的决定。学好一件事比学糟两件事要好。
真正优秀的教科书标志是,即使没有被指定阅读,也有人会选择去读它。一本真正、真正优秀的教科书是那种让人只想坐下来一口气读完的。如果你这么做了,请告诉我。我的自尊心不需要这种提升,但确实想要这种提升。
虽然我确信可能会遗漏一些人,但我可以想象到在课堂之外可能会阅读这本书的三类人。对于这三类人,我有一些阅读建议。
对于背景知识较少、希望回答因果问题的数据科学家或商业分析师:很高兴你来到这里!这本书将采用一种与你可能习惯的相当不同的数据分析方法。在很大程度上,数据科学和商业分析都是首先以数据为驱动的领域。
5 不总是如此!但通常是。
你在数据中寻找模式,看看它能告诉你什么。你的目标,通常是利用这些数据进行某种预测或测量。
另一方面,因果研究是理论驱动的。你从已知的知识出发,并利用这些知识来解释数据。你的目标是利用数据揭示关于生成数据的更广泛的过程和规律的真相。
进入这本书,你不仅将学到一些新方法,还将获得一种全新的研究思考方式!使用完全不同的思维框架是件难事——比如,我发现当我试图反向阅读数据科学结果时,就非常困难。对你来说,书中的关键章节是第 2 章和第 5 章。也许你甚至需要读上几遍,直到真正理解它们。一旦掌握了这些,剩下的就是方法了。鉴于你的背景,你可以迅速掌握这些方法。打开你的思维,走进来吧。
对于想要了解因果推断如何运作,或提高对使用因果推断研究的解读和评估能力的非研究人员来说:这本书的编排非常便利,你可以在不陷入复杂细节的情况下学到所需的知识。第 1 章到第 9 章将带你了解使用因果推断的研究整体上试图达到的目标。它还帮助你更好地判断那些提出因果主张的研究(或人)是如何支持或未能支持他们的主张的。即使作为非研究人员,你也将完全有能力绘制自己的因果图(第 7 章),并思考支持(识别)一个因果主张需要做些什么(第 8 章和第 9 章)。然后你可以问自己,他们是否做到了这些!如果你觉得阅读数学内容很可怕,你或许可以跳过第 3 章和第 4 章,但建议你尝试一下,看看在跳到第 5 章之前能理解到什么程度。
书的第二部分对你也可能很有用。如果你不打算自己做统计分析,你不需要通读第二部分的任何一章。但是,如果你想要理解某项使用了这些章节中某一种设计的研究,你可以查看许多工具箱章节开头的“它是如何工作的?”部分,了解该设计实际想要做什么。而且,如果你想要更高级地直接解读一些研究结果,“它是如何进行的?”部分也会对你有所帮助。
对于有因果推断经验的研究者,如果想要复习标准方法或更好地理解其工作原理,本书的第二部分《工具箱》非常适合你。每个关于标准因果推断设计的章节分为三部分——“它是如何工作的?”部分将帮助你回顾设计背后的概念和理论,“如何执行?”部分可能与你已经看过的计量经济学教材中的方法介绍最为接近,“专家是如何做的”部分则追踪了现代的调整、关注点和修复方法,这些可能是你想要了解的。顺便提一下,那些“专家是如何做的”部分对于很久以前学习过方法并需要了解最新发展的研究者来说,也是完美的选择。
也就是说,对于这两种类型的研究人员,我也建议他们查看本书前半部分关于因果图的材料。
6 以及第 5 章关于识别的内容——你已经了解这些内容了,但我认为这一章写得非常好;你可能会对识别有一些新的见解。
学习因果图对于那些已经接受潜在结果训练的人来说,在我看来边际价值并不巨大,但它仍然是你工具包中的一个强大工具。而且当涉及到教学时,它们确实是非常神奇的小工具。如果你从事教学工作,即使你不教授方法和统计学,你也可能会发现自己在课堂上加入因果图。我在我的《教育系统经济学》课程中总是使用它们,帮助学生理解那些超出他们理解范围的实证论文。
写这本书的过程充满了疯狂,从各个方面来说都是如此。我是在 2020 年 2 月开始这项工作的,那时我的孩子才六个月大,几乎正好是在新冠病毒大流行袭击美国前一个月。现在,当我完成这本书时,我的孩子把所有动物都叫作“小狗”,而且,好吧,大流行并没有完全结束,但我在上周五刚接种了第二针疫苗。当我为第二版更新这本书(并放弃弄清楚更新前一句话时应使用何种正确时态)时,我的孩子刚刚升级到“大孩子的床”,而我们无论好坏,已经很大程度上决定不再对大流行做太多事情了。
写一本书对我来说是一种分心,一个充满激情的项目,也是在这个奇怪且非常紧张的一年里记录时间的方式。如果你在未来读到这些,并且完全不知道我在说什么,我相信有很多关于 2020 年的历史书籍可以供你阅读。或者,按照你们那个时代的标准,2020 年甚至不算特别奇怪,在这种情况下,我希望你一切都好,并且惊讶你竟然有时间阅读因果推断的教科书。
你也可以将这本书视为推特上经济学社区(以及当时与之重叠的其他学术社区,那时推特还存在)的一个奇特且微小的衍生品。我不仅从推特上学到了很多关于因果推断的知识,而且那是一个极好的智力环境,为其贡献内容也成为了我的一大动力。分享一些你的教学材料,然后有上千人告诉你他们喜欢,这真是一种极大的满足感。所以,我花了一年时间写了一本书。我想,恭维确实能让人做任何事。
感谢斯科特·坎宁安最初鼓励我撰写这本书。感谢琼,因为她是如此好的睡眠者,让我能把午夜到凌晨三点的时间变成写作时间。感谢斯派克的一切。
章节标题插图由莎拉·珍绘制, except for “Finding Stuff in This Book” and “Partial Identification,” which are by Alfa.
非常感谢 Katelyn Trujillo 的编辑工作。同时感谢 Megha Joshi 撰写了许多章节问题,这些问题现已从书本身移至补充材料中,还要感谢每一稿的审阅者(匿名及其他)。
本书正文中的图表是使用 Wickham(2016 年)开发的 R 包 ggplot2 生成的, Cairo by Urbanek and Horner (2020
Urbanek, Simon, and Jeffrey Horner. 2020. Cairo: R 图形设备使用 Cairo 图形库创建高质量位图(PNG, JPEG, TIFF)、矢量图(PDF, SVG, PostScript)和显示(X11 和 Win32)输出。https://CRAN.R-project.org/package=Cairo.)
, ggpubr 由 Kassambara (2020, modelsummary by Arel-Bundock (2020
Arel-Bundock, Vincent. 2020. modelsummary:统计模型和数据的摘要表格和图表:美观、可定制且适合出版。https://vincentarelbundock.github.io/modelsummary/。)
, 由 Cinelli、Ferwerda 和 Hazlett (2021) 开发的 sensemakr
, 和 vtable 由 Huntington-Klein (2020. Causal diagrams were generated using shinyDAG by Creed, Aden-Buie, and Gerke (2020Creed, Jordan, Garrick Aden-Buie, and Travis Gerke. 2020. “shinyDAG.” https://apps.gerkelab.com/shinyDAG/.)
, 以及 Tantau(2013 年)的 LaTeX 包 TikZ
. 在进行分析时使用了许多其他包。所有在文本中未提及的引用可以在本书的源代码中找到,该源代码可在本书的 GitHub 代码仓库中获取。
此 Bookdown 版本是使用 R 包 bookdown(谢 2016, tufte (Xie and Allaire 2020
谢宇辉,JJ Allaire. 2020. tufte: Tufte 的 R Markdown 文档风格. https://CRAN.R-project.org/package=tufte.)
, 和 msmbstyle(Smith 2021), and with additional table-creation packages knitr by Xie (2015
谢益辉. 2015. 使用 R 和 Knitr 的动态文档. 第 2 版. 博卡拉顿,佛罗里达:查普曼与霍尔/CRC. https://yihui.org/knitr/.)
和 kableExtra 由朱(2021).
页面构建时间:2025-07-09,使用 R 版本 4.5.0(2025-04-11 ucrt)