这是用户在 2025-7-15 10:45 为 https://pubsonline.informs.org/doi/full/10.1287/mnsc.2022.02787 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

人工智能能否改善性别平等?一项自然实验的证据

发表在线日期:2024 年 10 月 10 日 doi: 10.1287/mnsc.2022.02787

摘要

教育中的性别歧视阻碍了女性在各个领域的代表。当教师的性别构成和心态改变缓慢时,我们如何创造一个性别中立的学习环境?最近人工智能(AI)的发展提供了一种实现这一目标的方法,因为工程师可以将 AI 训练器设置为性别中立,并不将与性别相关的信息作为输入。我们利用一项自然实验的数据进行测试,在这项实验中,AI 训练器取代了一些男性主导的战略棋盘游戏的人类教师,以检验 AI 培训的有效性。引入 AI 提高了男女学生的教学成果,并减少了原有的性别差距。调查结果显示,AI 的信息优势、友好的外观以及互动功能帮助学生更快地学习,而课堂录像表明,AI 训练器无偏见的情感状态可以解释性别平等的改善。我们展示了 AI 在提高学习成果和促进类似环境中多样、公平和包容方面的潜力。

本文由 Elena Katok 教授审阅,收录于“人类算法连接”专题。

资助:D. 黄感谢中国国家自然科学基金(项目编号:71988101 和 T2293771)的支持。C. 林感谢中国国家自然科学基金(项目编号:72192841)和中国香港特别行政区研究资助局(项目编号:T35/710/20R)的支持。

补充材料:在线附录和数据文件可在<https://doi.org/10.1287/mnsc.2022.02787> 获取。

1. 引言

女性在科学、技术、工程和数学学科以及战略棋类游戏(如围棋和国际象棋)中的人数明显不足。例如,目前在一些发展中国家,女性仅占最杰出科学职位的不到 6%(Bao 和 Huang 2022),而在 2022 年初,她们甚至没有出现在各种评级系统中顶尖的 10 位国际象棋选手名单中。研究文献对这一现象提供了多种解释,并发现歧视性做法和刻板印象是性别差距的主要原因(Alan 等,2018;Lavy 和 Sand,2018;Carlana,2019)。性别歧视可能早在小学教育阶段就开始出现(例如,Ganley 等,2018;Breda 等,2020)。提高教育中的性别平等一直是长期的社会目标(例如,Klasen,2002;Duflo,2012;Gallus 和 Heikensten,2020)。然而,教师和导师可能会持有性别偏见的观点,而这些观念有时变化缓慢。人工智能(AI)技术的发展为解决这一问题提供了可能的解决方案。 如今,人工智能已经在教育领域广泛应用,可以通过消除输入中的性别相关变量来提高性别中立性。然而,关于人工智能培训效果的证据很少,尤其是其在减少性别绩效差距方面的潜在优势。

我们通过分析一家围棋培训机构因新冠隔离而使用 AI 替代部分随机选定的人类教师的数据来填补这一空白。实地环境非常适合全面审查 AI 教学,原因有以下几点。首先,学生每周必须参加两次培训课程,每次课程包括与具有相似棋艺对手的对弈比赛和与教师的复盘讲解。由于培训结构简单,我们可以研究教师在复盘讲解中的指导如何提高学生在接下来的比赛中围棋技艺。频繁的比赛也为我们提供了足够的观察数据,以评估学生技艺水平的发展并进行统计推断。其次,围棋是一项男性主导的游戏,在观察窗口之前就存在性别表现差距,这使我们能够解决研究问题。第三,由于中国的新冠防控规定,在分析期间,所有比赛和复盘均在线进行。围棋软件记录了所有棋局,使我们能够量化学生的表现。 我们还记录了由人类教师和 AI 教师共同进行的修订会话,以考察教师的面部、语音和言语特征与学生学习成果之间的关系。值得注意的是,屏幕上的 AI 教师以卡通人物的形式出现,提供可以分析的面部、语音和言语信息,类似于人类教师。此外,无论是人类教师还是 AI 教师,学生与教师的互动都是在线进行的,确保了两种教学模式之间的公平比较。另外,AI 仅收集每场比赛中学生所做的动作信息,而不收集其他任何学生信息(如性别),从而满足了本研究的关键要求。

我们对两组数据进行了全面分析:一组是仅由人类教师授课的学生(对照组),另一组是在干预后接受 AI 教师培训的学生(处理组)。在引入 AI 培训之前,两组在围棋表现上表现出平行的趋势。然而,在干预之后,处理组在围棋技能上的提升速度明显快于对照组。这表明 AI 教师在整体学生群体中提高了学生的学习成果,超过了人类教师。

然后我们研究了 AI 教学如何对男孩和女孩产生不同的影响。我们发现,在实验干预之前,就已经存在持续的性别成绩差距;男生的表现明显优于女生。在引入 AI 之后,我们发现实验组的男女学生比对照组的同龄人进步更快,而且在 AI 培训下,女生的进步速度比男生更快。在经过五个月的 AI 培训后,实验组的男生和女生取得了相似的成绩分数。

在下一步中,我们对经历过 AI 教学和人类教学的学生进行了问卷调查,以了解可能影响治疗效果的渠道。调查结果显示,AI 在分析游戏、提供相关统计数据和互动功能方面的优势帮助学生比人类教师教学的学生学习得更快;然而,我们在上述问题的回答中未能发现任何显著的性别差异。我们还发现,学生们倾向于认为 AI 教师的形象比人类教师更吸引人,而女生比男生更偏好 AI 的形象。学生们还声称,教师的吸引力与他们的学习成果呈正相关。

我们进一步分析了所有复习课的视频记录,以研究性别成绩差距最初存在的原因以及 AI 培训如何减少这种差距。数据表明,人类教师对男生和围棋技能更先进的学生表现出更多的积极情绪和较少的消极情绪。数据还发现,教师在复习课上的情绪状态与学生在后续比赛中表现之间存在显著的相关性。然而,AI 教师的情绪变化较少,且不依赖于性别。与视频证据一致,调查结果表明,女生能够识别出人类教师表现出的性别偏见情绪,这可能会影响她们的学习结果。不过,学生们并没有感知到 AI 教师表现出性别偏见。因此,教师的情绪状态可能解释了性别成绩差距的演变。

我们为性别经济学文献做出了贡献。特别是,我们补充了研究性别差距成因(Goldin et al. 2006, Niederle and Vesterlund 2010)以及如何促进性别平等的研究。我们发现,人类教师的性别偏见情感会导致围棋训练中的性别表现差距,而人工智能教师可以减少这种性别差距。与该领域常用的其他方法(如积极行动、女性友好的制度安排、女性赞助以及提示/宣传)相比,我们通过使用人工智能提供了一种新颖且低成本的解决性别差异问题的方案。据我们所知,这是首次研究使用人工智能在课堂上改善性别平等的益处。人工智能可能通过消除人类教师在其他教育环境中带有歧视性情感的影响来减少性别差距。然而,我们承认我们研究中的所有培训课程都是在线进行的,读者在将我们的发现推及到面对面(F2F)培训等其他教学形式时应谨慎行事。

此外,我们借助人工智能提供了关于人际沟通的全新证据,系统地理解人际沟通。目前有一条新兴的文献流派,运用机器学习方法分析文本信息、语音和声频记录以及图像(Hoberg 和 Phillips 2010,Mayew 和 Venkatachalam 2012,Hu 和 Ma 2021)。我们的论文通过运用机器学习方法处理教学视频,量化教师在面部、语音和言语维度上的情绪,并研究这些情绪如何影响学生的行为。

此外,本文还补充了关于 AI 采用对重要社会经济结果影响的研究文献(Acemoglu 和 Restrepo 2018, 2020;Bao 等 2022)。AI 技术几乎已渗透到所有行业,包括金融、法律系统、医疗和制药创新以及市场营销。在广告、大学录取、法律判决和健康管理等算法中,已经检测到对女性和少数族裔的歧视模式(Santelices 和 Wilson 2010, Kleinberg 等 2018, Baker 和 Hawn 2022)。我们通过展示 AI 在教育领域的潜在影响,扩展了这一研究领域:AI 教师凭借其信息优势和无歧视的情感,可以提高教学效果和性别平等。

值得注意的是,如围棋这样的游戏中决策过程与管理者和政策制定者的决策过程相似,他们依靠直觉在不确定性条件下解决复杂问题并受到时间限制(Mnih 等,2015;Miric 等,2021)。AI 在分析此类场景并提供性别中立的情感状态相关统计数据方面可能具有天然优势,因为 AI 技术可以辅助围棋训练。此外,AI 在检测歧视和微妙的情感变化方面表现出色,从而提供了一种手段,可以在参与者的情感反映其在商业谈判、法庭听证和政治讨论中的想法时,减轻偏见并收集有价值的信息。因此,我们的研究结果对 AI 在提升管理者和政策制定者决策方面的指导作用具有重要意义。

2. 背景

2.1. 围棋

围棋是一种古老的两人抽象策略棋盘游戏,起源于 2500 多年前的中国。它被认为是目前仍在全球范围内进行的最古老的棋盘游戏,拥有超过 5000 万的玩家。尽管大多数玩家居住在东亚,但该棋的国际 popularity 正在增长,每年在亚洲以外地区举行超过 50 场职业比赛。

棋盘由 19×19 的网格组成,共有 361 个交叉点。玩家的目标是使用黑棋和白棋尽可能多地包围这些交叉点。玩家轮流在空点放置棋子,先手使用黑棋。一旦放置,棋子不能移动,除非被对方棋子完全包围在所有相连的点上,此时棋子被捕获并从棋盘上移除。游戏继续进行,直到双方都拒绝继续下棋。胜者通过计算被包围的领地,并在白棋的得分中加上补偿(komi),以抵消后手的劣势来决定。

尽管规则简单,但围棋因其更大的棋盘和更多的战略可能性以及较少的移动限制而极为复杂,使其区别于象棋。它大约有 种合法的石子摆放方式,超过了可观测宇宙中的原子数量。因此,围棋对程序员来说是一个巨大的挑战(Silver et al. 2016)。

深度学习算法的进步显著提升了围棋程序的能力(Silver et al. 2017)。在引人注目的胜利中,谷歌 DeepMind 的 AlphaGo 在 2015 年击败了欧洲冠军樊麾。2017 年,它进一步震惊了围棋界,击败了当时的世界排名第一的柯洁。这些成就打破了人们认为在巨大复杂性面前计算机在直观判断方面处于劣势的信念。AlphaGo 的胜利改变了研究围棋的方法,现在有更多的棋手将 AI 技术融入到他们的训练中。 1

我们的 AI 训练采用与 AlphaGo 类似的算法,作为人类教师的强大替代品。除了像人类教师一样评估学生的棋步,AI 还会显示胜率变化,提供更准确和客观的反馈。它还会根据胜率变化将所有棋步分类为完美、优秀、良好、较差、错误和严重错误,并在比赛的开局、中局和终局阶段为双方生成总结。对于标记为错误或严重错误的棋步,AI 程序会提供推荐选择,并展示推荐如何提高胜率和棋子数量。然后,AI 使用面部模拟程序构建卡通面孔,并采用文本转语音技术将评审内容转化为语音供学生聆听。卡通图像替代了显示人类教师视频图像的框。围棋复习软件的显示方式与 AI 和人类教师类似。与人类教学屏幕相比,AI 在单独的屏幕上提供游戏统计数据,并在这些屏幕与复习软件之间切换。 我们在在线附录 E 中绘制了 AI 教学的截图。但由于版权限制,我们无法展示卡通人物的截图。

2.2. 围棋中的性别差异

围棋领域性别差异仍然普遍存在,女性业余和职业选手明显少于男性。根据国际围棋联盟的调查,在大多数国家,女性围棋选手的比例不到 20%。为了鼓励女性参与,各种国际围棋协会实施了促进女性参与比赛的措施,包括在主要头衔比赛中组织女子围棋比赛。

性别差异在棋手的 Elo 评分中也十分明显。截至 2022 年 5 月,全球前 400 名职业棋手中仅有 26 位女性,其平均 Elo 评分为 3172.4,低于男棋手的 3286.2。围棋的发展将受益于更多才华横溢的女性棋手的加入,因为她们可以带来新的想法、风格和技能。

2.3. 围棋训练

围棋选手需要系统学习和高强度训练才能提高技能。在训练过程中,通常会让技能相近的选手对弈,以增加游戏的趣味性并避免结果极端不平等。因此,围棋协会建立了一个分级系统来对所有选手进行排名,便于训练和评估。选手在定级赛中的表现决定了他们的排名。

棋手的水平用 kyu 和 dan 等级来衡量。kyu 等级是学生等级,而 dan 等级通常被认为是大师等级。在中国,初学者开始学习围棋时会获得 25 kyu。随着他们水平的提高,他们会逐级向下通过 kyu 等级。因此,最好的 kyu 等级是第 1 kyu。如果棋手的等级超过第 1 kyu,他们将获得第 1 dan 的等级,并逐级向上通过 dan 等级。我们样本中的学生通过暑假期间的年度等级评定锦标赛晋升 dan 等级;因此,在观察窗口(秋季和春季学期)期间,学生的 dan 等级没有变化。

这家提供数据的围棋培训机构运作如下。对于拥有初段至高段位的学生,培训包括围棋规则的巩固、战术学习、解题训练(tsumego,即围棋谜题,代表需要仔细考虑才能解决的关键局面)以及开局(fuseki,即开局石的优化布局)和定式(joseki,即特定局面下的标准手筋序列)的研究。

学生的 dan 段位培训包括两个主要部分:对弈和复盘。教师指导学生与中国各地其他培训机关的对手进行围棋对弈。我们在实验期间联系了一些围棋培训机关,发现它们当时并未使用 AI 培训,因此学生的对手不太可能接受 AI 训练。此外,在比赛中学生无法进行口头或书面交流,这使得难以确定对手是否接受过 AI 训练。因此,对手的培训(AI 或人工教学)不太可能影响我们的主要结果。

所有对弈都是通过在线围棋软件进行的,每一步棋都记录在案。每场比赛后,教师都会与学生一对一地回顾这场比赛,评估表现的优缺点,并提供改进的建议。重播比赛(即复习)是大多数围棋大师常用的一种策略,用于巩固记忆和提高战略思维。

在新冠疫情的冲击下,一些初段学生的教师也被隔离了。与高段学生接受 AI 培训不同,这些初段学生的培训变成了观看视频录像。因此,这些初段学生无法告诉我们 AI 教学的有效性。

3. 实验细节

这个自然实验发生在一家中国最大的围棋培训机构,该机构已经培训了超过 10,000 名学生,并推动了超过 20 名学生参加专业比赛。学生们大多是小学生,他们在秋季学期初(即 2020 年 9 月)根据自己的级位被分到不同的班级,且在整个实验期间班级保持不变。由于级位较低的学生不适合解决研究问题(如上文所述),我们在实验中不包括这些学生;以下讨论仅涉及获得段位的学生。

学生每周参加两次课程,每次课程包括与其他培训机构的学生一起玩游戏和复习游戏。 4 2021 年 1 月,围棋培训机构实施了一项开创性的实验,向部分学生引入了人工智能培训,因为当地新冠肺炎疫情加剧导致 36 名教师中有 16 人被隔离。由于劳动法规和其他复杂情况,这些教师不适合授课。 5

在实验中观察的 287 名学生中,有 151 名学生(92 名男生和 59 名女生)在整个观察期内接受了人类导师的教育。同时,另有 136 名学生(82 名男生和 54 名女生)从 2021 年 1 月开始接受 AI 教师的教育,直到样本期结束。值得一提的是,在实验中,除了那些因隔离而转为接受 AI 培训的教师外,学生与教师的配对在整个实验期间保持不变。

由于疾病传播具有随机性,这一事件为我们提供了一个自然实验的设置。 6 在通知这一事件后,我们与围棋培训机构合作,恢复了冲击前后两个学期的培训数据。 7 具体来说,第一个培训学期从 2020 年 9 月到 2021 年 1 月,第二个培训学期从 2021 年 3 月到 2021 年 7 月。2021 年 2 月春节期间没有培训。由于冲击发生在 2021 年 1 月,我们有四个月的观察期在事件之前,五个月的观察期在事件之后。

3.1. 处理组

3.1.1. 对照组(92 名男孩,59 名女孩)。

实验的自然对照组是人类教师在整个实验阶段培训学生的情况。

3.1.2. 实验组(82 名男生,54 名女生)。

实验的处理组是指学生首先由真人教师培训,然后由 AI 引导的场景。

值得注意的是,学生被分配到对照组和实验组是由教师的隔离状态决定的,而不是学生自身的隔离状态。此外,在干预前后,对照组和实验组的锦标赛匹配协议是相同的。因此,我们不预期这些组之间学生隔离概率或对手特征存在系统性差异。

3.2. 假设

我们发现了人类教师与 AI 教师之间的五个区别,这些区别可能会影响教学效果。这些区别涵盖了教师的游戏分析能力、相关统计数据的提供、外在表现、互动特性和情感。基于这些区别,我们提出了关于这些因素如何影响教学效果的第一组假设。

在战略棋盘游戏培训领域,技能提升的关键在于对比赛数据的分析(Gobet 和 Jansen 2006)。人类教师通常根据自己的经验进行游戏分析,常常回顾整个游戏以识别错误。相比之下,AI 教师在处理信息方面更加精确和高效(Silver 等人 2016)。因此,信息处理能力的优越性可能驱动了学习成果。

假设 1.1。

信息处理能力的提升可以增强学习成果。在这一方面,AI 可能比人类教师更具优势。

另一个关键因素是教师提供棋局质量见解并提出改进建议的能力(Gobet 和 Jansen 2006)。AI 能够提供关于胜率预期变化和错误棋子数量的统计数据,这有助于加速学生的进步。

假设 1.2。

提供更相关的统计数据可以改善学习成果。在这方面,AI 可能比人类教师更有优势。

此外,人类教师和 AI 教师的形象不同。学龄儿童可能更喜欢卡通化的形象,而不是人类教师的形象。研究表明,在各种情境下,视觉吸引力可以提升学习成果(Cheung 和 Slavin 2013, Hillmayr 等 2020)。因此,我们预计 AI 的形象可能更吸引学生,从而有助于他们的学习。

假设 1.3.

更具吸引力的外观有助于取得更好的学习成果。在这方面,AI 可能比人类教师更有优势。

与人类教师相比,AI 教学还提供了更互动的视觉展示。例如,AI 教师会突出显示错误和建议的走法,同时展示胜率和棋子数量的变化。现有文献表明,互动特性可以在各种情境中提高学习效果(Bai 等人,2020)。

假设 1.4.

互动功能有助于提高学习成果。在这方面,AI 可能比人类教师具有优势。

教师的情绪状态是影响学习成果的另一个关键因素(Lauermann and Butler 2021)。研究表明,教师的情绪可以显著影响学生的学习信心、紧张感、注意力、接受建议的意愿以及对学习的兴趣(Frenzel et al. 2021)。具体而言,教师的积极和消极情绪可能通过情绪传染传递给学生(Hatfield et al. 1993)。因此,人类教师和 AI 教师的教学相对有效性可能取决于课堂内的情绪动态。然而,通过情绪这一视角比较人类教师和 AI 教师的教学效果存在挑战,因为人类教师的情绪范围可能比 AI 教师更广泛。

假设 1.5。

积极的教师情绪可以促进学习,而消极的教师情绪则会阻碍学习。

基于上述讨论,我们提出以下观点。

假设 1。

AI 在信息处理和传递方面具有优势,且其外观更具吸引力,交互式视觉展示也更吸引人,因此其教学效果优于人类教师。

第二个假设探讨了 AI 教学可能带来的性别差异。人类教师和 AI 教师的情感倾向可能会对男孩和女孩产生不同的影响。AI 教师不知道学生的性别,因此它可以避免人类教师中普遍存在的歧视性情感——这是性别差异的一个原因(Alan et al. 2018, Carlana 2019)。因此,AI 可能会导致性别中立的学习结果。

假设 2:

人类教师可能对女孩表现出歧视性情绪,导致女孩的进度比男孩慢。AI 教师通过表现出非歧视性情绪,提高了女孩的相对围棋水平。

男孩和女孩在假设 1.1 至 1.4 中提到的其他人类与 AI 差异的反应上也可能有所不同。我们通过一项调查来探讨这些可能性。

3.3. 教学相关问题的调查

为了理解可能导致 AI 教学和人类教学学习成果差异的渠道,我们在 2023 年春季学期对 86 名在围棋培训机构接受过与实验中治疗组相同 AI 培训的学生进行了调查。调查于 2023 年 4 月至 5 月使用问卷星(Wenjuanxin,中文版的 Qualtrics)进行,我们询问了学生关于他们对人类和 AI 教学的体验。调查参与者在复习课上使用围棋培训机构的电脑完成了答卷。我们告知学生,他们的回答将保持匿名,围棋培训机构的任何人无法访问个人回答。调查问题详见在线附录 F.1。

4. 数据与变量构建

我们从实验中收集了三组信息:学生和教师的属性、学生的围棋比赛数据以及复习课的视频记录。以下部分将详细介绍这些变量的定义。

4.1 学生和教师数据

我们从所有 287 名学生及其 36 名教师中获得了人口统计数据,收集了学生的年龄、性别、学习年数(从机构学习的年数)和段位等级。我们还获取了教师的年龄、性别和经验(教围棋的年数)。

我们在表 1 的 A 和 B 部分分别展示了整个样本以及两个子样本(处理组和对照组)的学生和教师特征的汇总统计。平均而言,学生年龄为 10.22 岁,从机构学习围棋的时间为 0.93 年,段位等级为 1.26。在所有学生中,约 61%为男生。至于教师,平均年龄为 22.06 岁,教围棋的经验为 1.89 年,其中 56%为男性。处理组和对照组的学生和教师特征之间没有显著差异。

Table

表 1. 概要统计量

第 1 张表共 6 张表

表 1. 概要统计量

全样本对照组 (C)处理组 (T)C − T
均值标准差均值标准差均值标准差
面板 A. 学生数据
年龄10.222.1410.242.1910.202.100.04
学习年限0.931.110.931.120.921.100.01
dan (1-5)1.261.181.211.251.321.11−0.10
男孩0.610.490.610.490.600.490.01
Panel B. 教师数据
年龄22.063.8321.503.9822.753.64−1.25
经验,年1.890.781.750.722.060.85-0.31
男性0.560.500.600.500.500.520.10
Panel C. 游戏数据
质量5.493.255.403.455.583.02-0.18***
质量(开场)3.581.863.521.973.651.72-0.12***
质量(中等)4.342.334.272.474.422.15-0.15***
质量(结束)8.335.638.155.958.535.24-0.38***
错误数量19.474.9019.605.0519.324.720.28***
关键错误数量2.320.642.340.672.300.600.04***
误差大小10.392.2210.432.3110.342.110.09***
胜出者0.510.500.500.500.520.50-0.02***
白方(后来者)0.500.500.510.500.500.500.01
Panel D. 视频数据
视觉正向0.160.120.160.130.150.100.02***
视觉负向0.120.100.130.110.100.080.02***
语音正向0.100.090.110.100.090.070.02***
语音负向0.010.010.010.010.010.010.00***
口头4.801.504.951.514.641.470.31***


注释. 本表提供了本文讨论的每个变量在整个样本和处理子样本中的均值和标准差。我们在表 A 中报告了学生的信息,在表 B 中报告了教师的信息,在表 C 中报告了学生在比赛中的移动情况,在表 D 中报告了修订会话的视频记录。更多关于变量构建和定义的细节请参见正文。

***、** 和 * 分别表示在 t 检验中检验控制组和处理组平均值相同的原假设在 1%、5% 和 10% 水平上统计显著。

4.2. 比赛数据

如前所述,每周的第一部分训练是一场与同侪的比赛。我们收集了样本期内学生的完整比赛记录,包括每场比赛的详细信息,如每步的顺序和二元比赛结果(胜/负)。二元胜/负变量是学生围棋技能的代理指标,但由于比赛结果可能取决于对手在比赛中的表现,因此它具有噪声,且无法捕捉胜/负的程度。此外,使用概率模型(如逻辑回归)分析虚拟因变量可能在计算上较为耗时,并且在大样本情况下可能会导致不稳定的估计。因此,分析非二元变量可以加强结果并提供额外的见解。在接下来的部分中,我们将介绍三组变量,这些变量总结了每场比赛中所有步骤的信息,以补充二元比赛结果。

4.2.1. 步骤质量。

我们使用 KataGo 机器学习算法来评估数据集中每场比赛中玩家所下的每一手棋的质量。 8 KataGo 由 David J. Wu 发起,是在线上最强大的开源围棋程序之一(Wu 2019)。由于其在大多数其他 AI 中的优势,KataGo 被业余和专业玩家广泛使用。

KataGo 可以在比赛的任何阶段评估所有替代走法的胜率变化和最终棋子数量,使我们能够比较玩家走法与 KataGo 建议走法之间的胜率(棋子数量)差异。基于这些比较,KataGo 帮助我们构建三组变量来衡量走法的质量。

第一组变量考虑了一局游戏中玩家一组走法的平均质量。KataGo 构建了 Average Move Quality 变量来衡量整局比赛的平均走法质量,以及不同比赛阶段(包括相对于职业水平的开局、中局和终局)的平均走法质量的类似度量。该变量的范围从 0(即击败 0% 的职业选手)到 100(即击败 100% 的职业选手)。除非另有说明,此处后的变量表示一局游戏中玩家所有走法的平均质量。

第二组变量统计玩家在一组移动中犯的错误次数/严重错误次数。KataGo 根据获胜概率的变化和石子数量将所有移动分为不同的类别。我们构建“错误次数”变量来统计使玩家获胜概率降低 10%到 20%的移动次数,“严重错误次数”变量来衡量使玩家获胜概率降低超过 20%的移动次数。

第三组变量衡量所有错误的大小(包括关键错误)。KataGo 会计算玩家每一步棋与其推荐的最佳步法之间的预期最终石数差值。我们取整个游戏中这些数值的平均值,构建“错误幅度”变量,以衡量学生非最优步法导致的最终石数减少量。

4.2.2. 赛事数据摘要。

表 1 的面板 C 提供了赛事数据中包含的 22,382 名学生-赛事观察值的变量汇总统计。平均移动质量为 5.49,而起始、中段和结束阶段的平均质量分别为 3.58、4.34 和 8.33。平均错误次数和关键错误次数分别为 19.47 和 2.32,平均错误程度为 10.39。胜率约为 51%,玩家执白石的概率为 50%。

治疗组和对照组在游戏表现上存在显著差异。与对照组相比,治疗组的平均移动质量更高,胜率也更高,在整个游戏阶段的错误次数更少。由于这些比较是在所有比赛之前和之后进行的(即,在 AI 干预前后),我们需要比较干预前后的组间差异,以了解 AI 教学的有效性。

4.3. 视频数据

正如所提到的,每周训练的第二部分是重播刚刚进行的比赛。教师会在一对一的视频会议中评估学生的棋局,而训练机构会记录这些会议。我们收集了真人教师和 AI 模拟教师的教学视频。在剔除无法分析的视频后,我们最终样本包括 20,279 个视频记录。 10 我们利用机器学习算法从这些记录中提取信息,构建可解释的变量。

4.3.1. 视频数据处理。

借鉴沟通学和心理学的相关文献,我们将视频分解为三维结构,包括视觉、声音和言语信息,并以数字格式表示(Krauss 等人,1981;Wallbott 和 Scherer,1986)。随后,我们利用机器学习算法分析这些信息,并构建衡量教师在线课堂中情绪表现的指标。

在视觉维度上,我们采用 Megvii 平台提供的面部检测算法来识别每个视频中嵌入的面部情绪。Megvii 算法检测面部特征点和动作,并在六个方面测量情绪:快乐、悲伤、愤怒、恐惧、厌恶和轻蔑。为了捕捉积极的视觉情绪,我们创建了 Visual-Positive,衡量教师面部情绪为积极(快乐)的时间比例。为了捕捉负面情绪,我们将悲伤、愤怒、恐惧、厌恶和轻蔑出现的总比例作为复合面部情绪,并创建了 Visual-Negative,衡量面部情绪为负面(悲伤、愤怒、恐惧、厌恶和轻蔑)的程度。

对于音调维度,我们提取视频音频流并将其视为振幅的时间序列。我们使用 Giannakopoulos(2015)开发的语音识别算法来关注单词和句子的语调。该算法通过三个维度(积极、消极和中性)中的声调起伏来近似教师的情绪。我们计算视频中教师表现出某种音调情感的时间比例,并创建两个变量:Vocal-Positive 和 Vocal-Negative,以衡量音调情感的积极或消极程度。

对于口头维度,我们使用百度 AI 开发的语音转文字算法,将教师的讲话内容转换为口头语境。 13 转换后的口头内容包括一系列词汇、这些词汇的时间戳以及标点符号。为了保证可重复性和透明度,我们使用机器训练的情感分析词典(Dodds 等人,2011;Kloumann 等人,2012)对口头语境进行情感分析。 14 这个词典常用于情感分析,包含了一个全面的中文词汇列表,帮助我们测量文本中反映的情感(Dodds 等人,2015)。该词典包含 10,014 个词汇,并为每个词汇分配了一个从 1 到 9 的幸福度评分,1 表示强烈的负面情绪,9 表示强烈的正面情绪。我们构建了口头情感变量,该变量为每个视频中所有词汇的幸福度评分之和,按词汇总数进行标准化。 15 当我们使用腾讯提供的自然语言处理算法进行基于计算语言学技术的情感分析时,我们的结果依然稳健。

4.3.2. 视频数据摘要。

表 1 的面板 D 展示了与培训视频相关的变量的汇总统计。在全样本中,视觉正向和视觉负向的平均值分别为 0.16 和 0.12,表明在回放课程期间,教师在视觉上表现出正向和负向特征的比例分别为 16%和 12%。在回放与学生比赛时,教师在语音上表现出正向和负向特征的平均值分别为 0.10 和 0.01,显示教师在回放比赛时表现出正向和负向语音特征的比例分别为 10%和 1%。全样本中言语情感的平均值为 4.80,与中国人在社交媒体上表达的情绪平均值一致(郑等,2019)。

然后我们将这些视频特征在治疗组和对照组之间进行比较。所有情感变量都显示出统计学上的显著差异。AI 培训师的情感状态更为中立,在治疗组的培训视频中观察到的正向和负向情感比例低于对照组。

4.4. 学生对 AI 教师感知的调查

然而,尽管我们已经建立了面部、语音和语言分析算法,能够有效评估人类的情绪,但这些算法分析卡通动画 AI 教师情绪的能力仍然不确定。为了验证这些算法在研究 AI 情绪方面的应用,我们在 2023 年 4 月至 5 月期间对 57 名报名参加围棋培训的学员进行了一项调查。在调查过程中,学生们观看了七个 AI 教学视频片段,并被要求记录每个片段中 AI 教师的视觉、语音和语言情绪。我们的研究发现,学生们的反应与算法生成的分数之间存在统计学上的显著相关性。调查问题详见在线附录 F.2。

此外,我们还调查了学生们对 AI 教师性别的感知,要求他们在外观和声音方面选择女性、男性或中性。大多数学生在两个方面都表现出中性的感知,对角色是男性或女性的感知比例相当。更详细的调查结果请参见在线附录 C.4。

5. 实证方法

我们使用差分法(DID)模型研究 AI 培训的效果,该模型通过比较实验干预前后实验组和对照组的学生表现来分析。对照组的作用是建立一个反事实,即如果学生在整个观察期内接受的是人类教师的培训,他们的表现会是什么样子。 16

如前所述,我们观察了 10 个月内 287 名学生的培训记录,创建了一个包含 22,382 个学生-游戏观察值的面板数据集。鉴于数据结构,我们在学生-游戏层面指定基准计量经济模型,并进行以下计量经济设定:

(1)
其中,y ijt 是一系列局级依赖变量,包括平均移动质量、错误/关键错误的数量、错误的大小以及玩家在第 t 个月第 次比赛的结果; 是一个虚拟变量,如果玩家接受了 AI 训练,则该变量等于 1,否则等于 0; 等于 1 表示第 t 个月在实验干预开始之后(即 2021 年 3 月至 7 月),否则等于 0。我们的模型利用面板数据结构,并包含完整的固定效应集,以缓解内生性问题。具体来说,我们添加了玩家固定效应 γ 以控制观察到和未观察到的玩家特定变量,并添加了月份固定效应 δ 以吸收可能影响依赖变量的时间特定混杂因素。我们还控制了班级和教师固定效应,以处理特定于班级和教师的混杂因素。 17

当因变量 \(y\) 是一个虚拟变量(即胜/负)时,我们使用包含个体和时间效应的逻辑回归模型来估计处理效应。如 Neyman 和 Scott(1948)所示,在逻辑回归中使用固定效应面板数据方法可能会因为偶然参数问题而严重偏倚。我们使用面板 jackknife 偏差校正方法来解决这些问题(Dhaene 和 Jochmans,2015)。

为了研究不同性别之间的异质性影响,我们进一步考虑了方程(1)的三重差分扩展,以捕捉性别在对 AI 培训的响应上的差异。具体来说,我们在分析中包括了所有涉及 的交互项:

(2)
其中, 是一个虚拟变量,如果学生是男孩,则该变量等于 1,其他变量的定义与方程(1)相同。参数 β 3 是三重差分估计量,量化了 AI 训练对男孩和女孩的治疗效应差异。

6. 实证结果

6.1. AI 培训的效果

6.1.1. 获胜概率。

我们首先在图 1 中绘制控制组和实验组的无条件获胜率,以检验 AI 培训的效果。在实验干预开始之前,我们发现两组的表现相似;两组的获胜概率约为 50%。干预开始后,经过五个月的 AI 培训,实验组的获胜机会稳步从 50%上升到 56%,但对照组的获胜率仍保持在 50%,没有明显趋势。

图 1. (彩色在线)获胜率
注释. 该图显示了实验干预前后控制组和处理组的胜率(原始胜率)。纵轴表示胜率,横轴表示相对于干预开始的时间。虚线误差棒表示 95%的置信区间。

尽管控制组的胜率没有观察到变化,但这并不一定意味着他们在观察期内的围棋水平停滞不前。胜率仅反映了他们相对于其他选手的围棋表现,而不是其绝对能力的衡量标准。为了更准确地了解学生的实际技术水平,我们在后续部分分析了棋步质量指标。

6.1.2. 棋步质量。

我们考察了在治疗干预前后,作为学生棋局质量代理变量的变化情况,分别在对照组和实验组中进行。具体而言,我们使用了四个指标来评估棋手的绝对表现。第一个指标,平均棋局质量,提供了相对于职业棋手的整体评估。其余三个指标——错误数量、关键错误数量和错误程度——则捕捉了错误的数量和严重程度。在图 2 中,我们展示了这些变量的发展趋势,类似于图 1。平均棋局质量的面板显示,对照组在观察期内的棋局质量表现出轻微而稳定的上升趋势,表明学生在没有 AI 的情况下逐渐提高。实验组的平均棋局质量最初与对照组相似。然而,在引入 AI 训练后,实验组在这一指标上的表现出现了显著提升。干预两个月后,实验组的得分显著超过了对照组,并且差距继续扩大。

图 2.(在线彩色显示)绩效衡量指标
注释。该图展示了实验干预前后控制组和处理组在四个衡量指标(原始率)上的表现。这四个指标分别是平均移动质量、错误数量、关键错误数量和错误程度。纵轴表示每个指标的值,横轴表示相对于干预开始的时间。误差棒表示 95%的置信区间。

然后我们考察了比赛中的错误测量。在控制组中,随着时间的推移,学生在人类教师的指导下学会了避免错误,错误数量逐渐减少。在 AI 培训之前,处理组和控制组在这几个指标上没有显著差异。然而,在引入 AI 之后,处理组的错误减少更为明显,表明与控制组相比,其做出劣质移动的可能性显著降低。

图 1 和图 2 表明,AI 训练优于人类教师:AI 教师通过提高学生的棋局质量并减少错误,帮助学生提高胜率。为了量化治疗效应的大小并测试这些结果的稳健性,我们进行了如方程(1)所示的回归分析,并将结果呈现于表 2 中。

Table

表 2. 平均治疗效果的估计

Table 2. Estimation of the Average Treatment Effect

Dependent variable
Game outcomeAverage move qualityNumber of errorsNumber of critical errorsMagnitude of errors
(1)(2)(3)(4)(5)
After × Treated0.035***0.328***−0.490***−0.067***−0.173***
(0.00)(0.00)(0.00)(0.00)(0.00)
Constant5.409***19.584***2.340***10.429***
(0.00)(0.00)(0.00)(0.00)
Month fixed effectsYesYesYesYesYes
Class fixed effectsYesYesYesYesYes
Teacher fixed effectsYesYesYesYesYes
Student fixed effectsYesYesYesYesYes
Observations22,38222,38222,38222,38222,382


Notes. This table shows the estimation results of the effectiveness of AI training in improving students’ performance. The dependent variables are Game Outcome (dummy variable for winning), Average Move Quality, Number of Errors, Number of Critical Errors, and Magnitude of Errors in columns (1)–(5), respectively. The independent variable After is a dummy variable specifying whether the game took place after the introduction of AI training, and Treated is a dummy variable determining whether the student is in the treated group. Standard errors are clustered at the student level. p-values are reported in parentheses.

 ***, **, and * indicate statistical significance at the 1%, 5%, and 10% levels, respectively.

第 1 列显示了 AI 训练对锦标赛二元结果(胜/负)的平均处理效应。如第 5 节所述,我们使用带 jackknife 偏差修正的 logit 固定效应估计器来估计模型,并仅在表中绘制平均处理效应。AI 训练将获胜概率提高了 3.5 个百分点(p < 0.01),这是基于对照组 50%的基础(参见表 1 的 C 部分)。第 2 列展示了 AI 训练对平均移动质量的平均处理效应。点估计值为 0.328,并在 1%的水平上具有统计显著性。在第 3 列和第 4 列中,我们关注错误数量和关键错误数量。相应的系数估计值表明,在 AI 训练阶段,治疗组的错误数量和关键错误数量分别进一步减少了 0.490 倍和 0.067 倍,两者都与零具有统计显著性差异。然后我们在第 5 列中查看错误量的处理效应,发现点估计值为-0.173,并在 1%的水平上具有统计显著性。 这些估计结果证实了 AI 训练在提高学生表现方面的优势,因为差分估计量(处理组×之后)系数与获胜概率显著正相关,与错误指标显著负相关。

6.1.3. 进一步分析。

上述回归分析提供了平均治疗效果的概览,但仍然不清楚这些效果如何随时间变化。为了阐明干预前后实验组和对照组在不同时间点上的表现差异,我们采用了一般化的差额-差额(DID)模型,将模型与表示不同月份的虚拟变量进行交互,并按时间顺序比较实验组和对照组的表现差异。我们将干预前的月份(即 t=0)作为基线时间点,后续每月的比较都是相对于 t=0 时的组间差异进行的。

我们在图 3 中绘制了估计系数随时间的变化。数据表明,在实验干预之前,控制组和处理组之间不存在先存的绩效差距,因为双重差分估计量的系数不显著地不同于零。然而,在引入 AI 培训之后,处理组的表现优于控制组,并且两者之间的差距持续扩大。这与之前图表中的模式一致。

图 3.(在线彩色显示)治疗效应的发展趋势
注释。该图展示了在实验窗口内,治疗组与对照组平均移动质量差异的动态差异回归估计系数。纵轴表示观察窗口中每个月的平均移动质量估计系数,横轴表示相对于干预开始时间的时间。误差棒表示 95%的置信区间。

我们还进行了其他异质性分析,以研究特定学生群体是否主导了主要结果。我们将所有学生按年龄、学习时长和段位分为不同的组,并对这些子样本进行类似的分析。根据在线附录 C.3 中的估计结果,我们发现上述结果在这些组中定性上仍然成立,表明 AI 培训对提高表现的影响适用于具有不同特征的学生。 20

结果 1

AI 在提高学生表现方面优于人类教师。

6.2. AI 训练与性别表现差距

既然我们发现 AI 训练在提高学生围棋表现方面的优势,但仍然不清楚 AI 在多大程度上影响了性别表现差距。为了探索这一问题,我们按照玩家的性别重新进行 6.1 节的分析,并绘制图 4 来研究男孩和女孩在面对 AI 时的不同反应。在对照组中,男孩的胜率始终高于女孩,这表明围棋训练中存在性别差异。男孩和女孩的胜率在观察窗口内没有明显的时间趋势,围绕各自的均值波动。在 AI 训练前,治疗组的胜率与对照组相似。然而,在干预后,治疗组的男孩和女孩的胜率随时间提高,并且显著优于对照组的对应者。值得注意的是,女孩的胜率提高速度比男孩快,在干预五个月后,性别表现差距有所缩小。

图 4. (在线彩色显示)按性别划分的胜率
注. 该图显示了实验干预前后按性别划分的控制组和处理组的胜率(原始胜率)。纵轴表示胜率,横轴表示相对于干预开始的时间。虚线误差棒表示 95%的置信区间。

然后我们关注图 5 中的移动质量指标。从平均移动质量的面板来看,控制组中的男孩和女孩的平均移动质量都有轻微上升的趋势,两者之间的移动质量差距随时间保持稳定。该面板还表明,在处理组中,男孩和女孩在接受 AI 培训后,移动质量的提升速度更快。然而,女孩的提升速度比男孩更快,在干预五个月后,消除了原有的性别差距。数据还表明,在观察窗口结束时,接受 AI 培训的女孩在移动质量上超过了控制组的男孩。

图 5(在线彩色显示):按性别划分的绩效指标
注释. 该图展示了性别维度上控制组和处理组在实验干预开始前后四种表现指标(原始率)的变化情况。这四种指标分别是平均移动质量、错误数量、关键错误数量和错误程度。纵轴表示每项指标的数值,横轴表示相对于干预开始的时间。误差棒表示 95%的置信区间。

三种误差衡量标准的演变模式类似。对于对照组,男孩和女孩在实验窗口期间的错误发生率和大小逐渐减少,且男孩始终优于女孩。对于处理组,在干预前,男孩和女孩的模式与对照组相似。然而,在引入 AI 后,男孩和女孩的误差衡量标准都有更明显的减少,其中女孩的减少速度比男孩快。经过五个月的 AI 训练后,错误产生的性别差距已经消失。

然后我们进行回归分析,量化 AI 训练在多大程度上可以减少性别表现差距,如方程(2)所示。在表 3 中,我们发现三差估计系数( )与图表中观察到的情况一致:AI 训练可以减少原有的性别表现差距。具体而言,我们在第(1)列中展示了 AI 训练对男孩和女孩比赛结果的差异性影响。三差估计系数为−0.059(p<0.01),这表明在 AI 教学下,女孩的胜率提升幅度大于男孩。在第(2)列中,我们发现男孩的平均移动质量改善程度小于女孩,三差估计系数为−0.250(p<0.01)。类似地,在第(3)至(5)列中,数据表明在 AI 训练后,女孩显著减少了错误和关键错误的发生频率和严重程度,而男孩则没有明显变化。

Table

表 3. 治疗效应中性别差异的估计

Table 3. Estimation of the Gender Difference in the Treatment Effect

Dependent variable
Game outcomeAverage move qualityNumber of errorsNumber of critical errorsMagnitude of errors
(1)(2)(3)(4)(5)
After × Treated0.048**0.479***−0.691***−0.088***−0.251***
(0.02)(0.00)(0.00)(0.00)(0.00)
After × Boy−0.029−0.0320.0970.0190.051
(0.28)(0.58)(0.32)(0.25)(0.26)
After × Treated × Boy−0.059***−0.250***0.336**0.0360.131**
(0.00)(0.01)(0.02)(0.15)(0.03)
Constant5.418***19.555***2.334***10.413***
(0.00)(0.00)(0.00)(0.00)
Month fixed effectsYesYesYesYesYes
Class fixed effectsYesYesYesYesYes
Teacher fixed effectsYesYesYesYesYes
Student fixed effectsYesYesYesYesYes
Observations22,38222,38222,38222,38222,382


Notes. This table estimates to what extent AI training affects boys and girls differently. The dependent variables are Game Outcome (dummy variable for winning), Average Move Quality, Number of Errors, Number of Critical Errors, and Magnitude of Errors in columns (1)–(5), respectively. The independent variable After is a dummy variable specifying whether the game took place after the introduction of AI training, Treated is a dummy variable determining whether the student is in the treated group, and Boy is a dummy variable on students’ gender. Standard errors are clustered at the student level. p-values are reported in parentheses.

 ***, **, and * indicate statistical significance at the 1%, 5%, and 10% levels, respectively.

我们还进行了动态分析,研究 AI 引入后对男女生的不同益处。我们分别按学生的性别进行两组回归估计,并在每个月绘制每个性别的系数,如图 6 所示。我们发现,在 AI 培训之前,实验组的男女生在学习成果上与对照组相似,因为 DID 系数在 t=0 之前的月份不显著。然而,在引入 AI 教师之后,实验组的男女生学习速度都快于对照组。在 t=2 之后,男女生的对照组与实验组之间的差异变得显著。此外,可以看出,在 AI 培训的帮助下,女生的表现提升速度更快;在四个月后,女生的治疗效应显著大于男生。

图 6.(在线彩色显示)按性别变化的治疗效果演变
注. 该图展示了在实验窗口期内,治疗组和对照组在不同性别中平均移动质量变化的动态差异回归估计系数。纵轴表示观察窗口内每个月的平均移动质量估计系数,横轴表示相对于干预开始时间的时间。误差棒表示 95%的置信区间。
结果 2。

AI 训练缓解了既有的性别不平等。

6.3. 稳健性检验

6.3.1. 对手特征。

表 2 和表 3 中的估计结果可能取决于对手的特征。在一系列稳健性分析中,我们控制了对手的可观测特征,结果 1 和结果 2 未发生改变。此外,我们发现男孩和女孩均未受到对手性别显著影响。感兴趣的读者可以在附录 A.4 中找到更多讨论。

6.3.2. 多重假设检验。

表 2 和表 3 中的回归分析可能受到多重假设检验批评的影响,因为我们包含了多个结果(游戏结果、平均移动质量、错误次数、关键错误次数以及错误的大小)。为解决这一问题,我们采用了四种方法(Westfall 和 Young 1993,Anderson 2008,Romano 和 Wolf 2016,Barsbai 等 2020)来修正多重假设检验问题,并发现结果依然稳健。感兴趣的读者可以在在线附录 A.5 中找到详细信息。

7. 可能的渠道

我们发现 AI 在提高学生围棋水平方面具有优势,尤其是在提高女生的水平方面。然而,AI 实现这一结果的具体机制尚不明确。在本节中,我们将通过调查和额外的分析来探讨潜在的解释,正如假设部分所提出的。

7.1 信息处理

如假设 1.1 所述,AI 在分析游戏方面明显优于人类教师。为了探索更好的游戏数据分析是否转化为更好的教学成果,我们询问了学生他们是否认为 AI 教师能够比人类教师更全面地分析游戏数据。图 7 第一行左图显示了结果,表明 82.6%的受访者回答“是”;男生中有 83.7%、女生中有 81.1%的人持肯定态度,性别差异不显著(p=0.75)。 22 然后,我们询问学生他们是否认为教师分析游戏数据的能力对他们的学习成果有积极影响。图 7 第一行右图展示了结果。总的来说,76.7%的受访者同意这一观点,男生和女生的比例分别为 77.6%和 75.7%(p=0.84)。

图 7. 人类与 AI 差异的调查结果
注释. 该图展示了学生对人工智能在游戏分析、信息提供、外貌和互动功能潜在优势的看法,以及他们认为这些功能是否能改善学习成果的信念。详细的调查问题见附录 F.1 中的 Q5 至 Q13。
结果 1.1

学生们认为 AI 老师的游戏分析能力比人类老师更强,这有助于他们提高得更快。

7.2. 信息提供

根据假设 1.2,AI 在提供与结果相关的统计数据方面也优于人类教师。我们询问学生,AI 是否比人类教师提供了更多的相关统计数据和信息。第二行左图显示了调查结果。总体而言,79.1%的受访者回答“是”。在性别差异方面,没有显著差异(p=0.69),其中 77.6%的男生和 81.1%的女生给出了肯定的回答。我们还询问学生,提供这些统计数据是否能改善他们的学习成果。第二行右图显示了调查结果。总体而言,76.7%的受访者同意这一说法,男生和女生的比例分别为 77.6%和 75.7%(p=0.84)。

结果 1.2。

学生认为 AI 教师提供的统计数据比人类教师更相关,这有助于提高学习成果。

7.3. 教师形象

回响着假设 1.3,AI 的卡通形象可能比人类教师更吸引学生。我们在调查中让学生比较 AI 和人类教师的外观吸引力。图 7 第三行左图显示了结果:73.3%的受访者认为卡通形象更具吸引力;63.3%的男生和 86.5%的女生对此表示赞同,性别差异显著(p=0.02)。接下来,我们询问是否外观更吸引人的教师能提高学习效果,并在图 7 第三行右图中绘制了结果:83.7%的学生对此表示肯定,男生和女生的比例分别为 83.7%和 83.8%(p=0.99)。

结果 1.3。

学生们认为 AI 的卡通形象比人类教师更吸引人,而更吸引人的外观能提高学习效果。女生对 AI 形象的偏好比男生更强;通过这一渠道,她们可能比男生更受益于 AI 教学。

7.4. 互动功能

回应假设 1.4,我们询问了调查参与者,AI 是否提供了比人类教师更多的互动功能,例如突出显示错误和建议的走法。图 7 第四行左图显示了调查结果。总体而言,60.5%的受访者认为 AI 提供的互动功能多于人类教师。将焦点转向性别方面,我们发现对这一问题的回应在性别上没有显著差异:63.3%的男孩和 56.8%的女孩回答“是”(p=0.54)。我们还询问了学生这些功能是否能改善学习成果,图 7 第四行右图显示了学生的回答;76.7%的学生认为互动功能与学习成果正相关,男孩和女孩对此的积极回应率没有显著差异(73.5%对 81.1%,p=0.41)。

结果 1.4

学生认为,AI 教师提供了比人类教师更多的互动功能,从而提高了学习效果。

7.5. 教师情绪

7.5.1. 教师情绪与学生特征

如假设 1.5 和 2 所推测的,教师的情绪可以影响学习效果和性别成绩差距。根据心理学文献的惯例(Krauss 等人,1981;Duckworth 等人,2007),我们分析了嵌入课堂录像中的视觉、音频和言语信息中的教师情绪,并通过回归分析检查教师情绪与学生性别之间的相关性,同时控制了学生在之前游戏中的表现。借鉴情绪研究的文献(Durlak 等人,2011;Hu 和 Ma,2021),我们展示了研究教师情绪的回归分析的标准化系数(即表 4-6)。

Table

表 4. 教师情绪状态的影响因素

表 4/6

表 4. 教师情绪状态的影响因素

因变量
视觉积极视觉消极语音积极反对的口头的
教师人类AI《人工智能能否改善性别平等?一项自然实验的证据 | 管理科学》AI《人工智能能否改善性别平等?一项自然实验的证据 | 管理科学》AI《人工智能能否改善性别平等?一项自然实验的证据 | 管理科学》AI《人工智能能否改善性别平等?一项自然实验的证据 | 管理科学》AI
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)
男孩0.007**−0.001−0.007**−0.0000.015***−0.001−0.001***−0.0000.384***0.070
(0.01)(0.75)(0.01)(0.95)(0.00)(0.33)(0.00)(0.27)(0.00)(0.23)
年龄0.0000.000−0.0000.0000.000−0.000*0.000−0.0000.002−0.008
(0.93)(0.40)(0.79)(0.86)(0.96)(0.07)(0.60)(0.32)(0.84)(0.67)
研究0.0010.0000.0000.0000.0000.001−0.000-0.0000.0020.009
(0.62)(0.99)(0.88)(0.94)(1.00)(0.12)(0.11)(0.54)(0.90)(0.79)
dan0.007-0.003-0.012*** %%−0.0000.006−0.003*−0.001*−0.0000.100*0.054
(0.15)(0.37)(0.00)(0.84)(0.14)(0.09)(0.06)(0.68)(0.08)(0.28)
月固定效应是的是的是的是的
固定效应分类是的
固定教师效应是的是的
游戏控制是的是的是的是的是的
观测值13,6304,81213,6284,81213,6284,81213,6304,81213,6304,809


注释。本表估计了学生特征对学生和 AI 教师在课堂录音中表达的情绪影响程度。因变量捕捉教师的面部、语音和言语情绪,自变量包括学生的性别、年龄、学习年限和段位。游戏控制包括三个变量,分别捕捉前一、三、七场比赛的平均移动质量。标准误在学生和教师层面进行聚类。p 值以括号形式报告。

*、** 和 *** 分别表示在 1%、5% 和 10% 的水平上具有统计显著性。

Table

表 5. 人类教师的情绪状态与后续学生成绩

表 5/6

表 5. 人类教师的情绪状态与后续学生成绩

因变量
平均移动质量
老师人类
学生女孩和男孩女孩男孩
(1)(2)(3)(4)(5)(6)(7)(8)
正向视觉0.009**0.0070.0030.013*
(0.03)(0.14)(0.51)(0.07)
视觉负相关−0.043***−0.053***−0.045***−0.064***
(0.00)(0.00)(0.00)(0.00)
Vocal-positive0.059***0.076***0.046***0.101***
(0.00)(0.00)(0.00)(0.00)
Vocal-negative−0.041***-0.051***-0.041***-0.067***
(0.00)(0.00)(0.00)(0.00)
Verbal0.014***0.016***0.014*0.018***
(0.00)(0.00)(0.08)(0.00)
Month fixed effectsYesYesYesYesYesYesYesYes
Class fixed effectsYesYesYesYesYesYesYesYes
Teacher fixed effectsYesYesYesYesYesYesYesYes
Student fixed effectsYesYesYesYesYesYesYesYes
Game controlsYesYesYesYesYesYesYesYes
Observations13,63013,62813,62813,63013,63013,6265,3468,280


Notes. This table estimates how human teachers’ emotions in the videos affect students’ performances in subsequent games. The dependent variable is students’ average move quality in each game, and the independent variables include measures of teachers’ emotions in the revision classes before corresponding tournaments. Game controls include three variables capturing the average moving quality for the previous one, three, and seven games, respectively. Standard errors are clustered at the student and teacher levels. p-values are reported in parentheses.

 ***, **, and * indicate statistical significance at the 1%, 5%, and 10% levels, respectively.

Table

表 6. 人工智能教师的情绪状态与后续学生成绩

表 6

表 6. 人工智能教师的情绪状态与后续学生成绩

因变量
平均移动质量
老师AI
学生女孩和男孩女孩男孩
(1)(2)(3)(4)(5)(6)(7)(8)
正向视觉0.0020.0020.012−0.006
(0.68)(0.70)(0.13)(0.48)
视觉负相关0.0000.0000.007−0.004
(0.94)(0.92)(0.45)(0.51)
Vocal-positive−0.005−0.005−0.0130.000
(0.36)(0.36)(0.16)(0.94)
Vocal-negative0.0010.001−0.0020.002
(0.87)(0.87)(0.88)(0.86)
口头−0.002−0.002−0.0090.003
(0.77)(0.76)(0.57)(0.72)
月固定效应是的是的是的是的是的是的是的是的
固定效应分类是的是的是的是的是的是的是的是的
固定教师效应是的是的是的是的是的是的是的是的
固定效应学生是的是的是的是的是的是的是的是的
游戏控制变量是的是的是的是的是的是的是的是的
观测值4,8124,8124,8124,8124,8094,8091,9242,885


注释。本表估计视频中人工智能教师的情绪对学生在后续游戏中表现的影响。因变量是每个游戏中学生的平均动作质量,自变量包括修订课中对应比赛前的情绪测量指标。游戏控制变量包括分别捕捉前一、三、七场比赛平均动作质量的三个变量。标准误在学生和教师层面进行聚类。p 值以括号形式报告。

*、** 和 *** 分别表示在 1%、5% 和 10% 的水平上具有统计显著性。

首先,我们关注表 4 中的列(1)至列(4),研究教师面部表情与学生特征之间的关联。视觉数据表明,真人教师更有可能对男生和 dan 值较高的学生表现出积极情绪(列(1)),而较少表现出消极情绪(列(3))。然而,AI 教师的情绪并未因观察到的学生特征而改变(列(2)和列(4))。列(5)至列(8)基于教师的语音信息进行估计,结果显示类似模式;真人教师倾向于偏爱男生和 dan 值较高的学生,而 AI 教师的情绪对学生是中立的。同样,列(9)和列(10)中的教师口头表达的情绪也呈现出相同模式。总之,真人教师对男生表现出更多积极情绪和更少消极情绪,而 AI 教师没有表现出这种性别差异;AI 教师的情绪与学生特征无关。 23 从在线附录 B.2 中提供的稳健性检验中,我们发现男教师和女教师都表现出歧视性情绪。

7.5.2. 教师的情绪与学生的学习。

我们随后探讨教师的情绪是否影响学习,并在最近的复习会话中通过回归教师的情绪变量来评估学生平均表现的变化。我们首先分析由人类教师指导的锦标赛。表 5(1)至(6)列显示,人类教师的积极情绪会提升学生在下一锦标赛中的表现,而消极情绪则会阻碍学生在随后比赛中的表现。当我们分别对男生和女生进行回归分析(表 5(7)和(8))时,教师情绪对学生表现的影响仍然有效。在线附录 D 中的 Blinder-Oaxaca 分解发现,教师的歧视性情绪状态可以解释 27%至 46%的性别差距。

我们随后在表 6 中重复对 AI 培训的分析,并发现 AI 教师的情绪对学生未来的表现没有显著影响。

7.5.3. 教师性别偏见情绪如何影响性别差距。

为了考察教师偏见情绪对男女生的不同影响,我们对学生进行了调查,以评估他们感知人类教师情绪的能力。图 8 左上角的图表显示,93.9%的男生和 91.9%的女生对此表示认同。随后,对于承认具备这种能力的学生,我们询问了他们对教师情绪中性别偏见的看法。图 8 左中部分显示,41.3%的男生和 64.7%的女生认为存在性别偏见,性别差异显著(p=0.06)。进一步探究这些偏见情绪对学习的影响时,图 8 左下部分显示,15.8%的男生和 59.1%的女生认为教师的性别偏见情绪对其学习进步产生了负面影响,性别差异显著(p<0.01)。

图 8. 学生对教师情绪感知的调查结果
注释. 图的上部和中部显示了在能够感知教师情绪的条件下,学生是否能感知到教师的情绪以及学生是否认为这些情绪存在性别偏见的调查结果。图的下部则揭示了在学生认为教师情绪存在性别偏见的条件下,教师的性别偏见情绪如何影响学习。详细的调查问题列于在线附录 F.1 的 Q14 至 Q19。

接下来,我们对 AI 教师进行了类似分析。图 8 的右上角部分显示,77.6%的男生和 64.9%的女生感知到了 AI 教师的情绪。当被问及对 AI 情绪中性别偏见的感知时,图的右中部部分显示,2.6%的男生和 8.3%的女生认为存在这种偏见,性别差异不显著(p=0.40)。此外,在那些认为 AI 存在性别偏见情绪的学生中,没有人认为 AI 的性别偏见情绪对其学习产生了负面影响(图的右下角部分)。

7.5.4. 教师情绪对学习的影响。

为了进一步研究人类教师情绪对学生学习的影响,我们对学生进行了调查,询问他们关于教师情绪与学生自信、紧张、集中力、接受建议的意愿以及学习兴趣之间的关系。我们选择了这五个方面,参考了关于教师情绪如何影响学生表现的相关文献(Yeager 和 Dweck 2012, Freeman 等人 2014)。具体来说,我们询问教师的积极和消极情绪是否能增强这五个方面。学生需要对每个问题(是、否、不知道)选择一个选项,以判断他们是否能在课堂上感受到人类教师的情绪。

我们在图 9 中展示了调查结果。在与学生信心相关的两个问题中,87.5%的学生表示,教师的积极情绪提升了他们的信心,而 62.5%的学生认为消极情绪并未增加他们的信心。关于紧张感,68.8%的学生认为教师的积极情绪并未增加他们的紧张感,而 85.0%的学生表示教师的消极情绪增加了他们的紧张感。在关于学生注意力的问题中,86.3%的学生认为教师的积极情绪有助于他们在课堂上集中注意力,而 65.0%的学生表示消极情绪并未提高他们的注意力。关于愿意遵循教师建议的问题,77.5%的学生表示教师的积极情绪使他们更有可能遵从,而 13.8%的学生表示消极情绪使他们更有可能遵从。在关于学习兴趣的问题中,72.5%的学生表示教师的积极情绪增强了他们的兴趣,而只有 11.3%的学生表示消极情绪也增强了他们的兴趣。在性别差异方面,我们发现男生和女生对这些问题的回答相似。 因此,人类教师的情感状态在性别上的差异(与女生相比,男生更积极、负面情绪更少)可能使得男生在课堂上更加自信、不那么紧张、更加专注、更愿意接受建议,并且更感兴趣于学习,从而导致观察到的性别差异。

图 9. 调查结果显示教师情感对学生表现的影响
注. 该图展示了教师的正面和负面情绪对学生信心、紧张感、注意力、接受建议的意愿以及对课程的兴趣的影响。详细的调查问题见附录 F.1 中的 Q20 至 Q29。
结果 1.5。

教师的正面情绪能够增强学生的学习信心、注意力、接受建议的意愿以及对课程的兴趣,从而改善学习成果;而负面情绪则会使学生感到紧张,妨碍学习。

8. 讨论

我们通过一项自然实验评估了人工智能教学的有效性,在这项实验中,人工智能取代了几位围棋教师。数据表明,人工智能在提高教育成果和减少性别不平等方面具有优势。人工智能在棋局分析、信息提供、吸引人的呈现方式以及互动展示方面的优势使其在与人类教师的比较中表现出色。通过对课堂录像和调查的分析表明,人类教师可能会表现出性别偏见的情绪,这可能对女生产生负面影响。人工智能教师表现出性别中立的情绪有助于减少这种差距。

我们强调了人工智能在在线教育中的作用,既是人类教师的宝贵补充,也是其替代者,有助于营造性别中立的学习环境。随着人工智能在各个领域的广泛应用,我们的研究表明它有促进平等的潜力。此外,数据还突显了视频分析人工智能检测歧视行为的能力,使其用途超越了教育领域。这些信息可以帮助作者、教育者和招聘委员会避免使用有偏见的语言和行为。另外,在商业谈判和法律程序中分析面部和语音线索,可能为管理者和监管者提供有价值的见解。

然而,我们的结果仅展示了人工智能的潜力;在将这些发现推广到其他人工智能驱动的程序时,应谨慎行事。我们能否将上述发现推广到其他情境取决于具体领域和人工智能的特点(Al-Ubaydli 等,2017),如人工智能的能力、输入数据、任务的性质以及人机互动等。

除了检验我们研究发现的外部有效性,我们还设想了未来研究的几个方向。首先,通过跨学科合作提升人工智能教学,可能在提高具有不同学习和认知风格的学生的学习成果方面取得显著进步。其次,利用人工智能的信息优势来改进以人为主导的教学可能是一个引人入胜的研究领域。

致谢

作者衷心感谢三位匿名审稿人、一位匿名副主编 Elena Katok(主编)、Daron Acemoglu、Sumit Agarwal、Mallory Avery、Te Bao、Max Bazerman、Andrew Burton-Jones、Fadong Chen、Haiqiang Chen、Soo Hong Chew、Junhong Chu、Katherine Coffman、Bo Cowgill、Catherine Eckel、Nisvan Erkal、Christine Exley、Lata Gangadharan、Uri Gneezy、Avi Goldfarb、Guojun He、Haoran He、Roni Michaely、Anja Lambrecht、Andreas Leibbrandt、John List、Susan Feng Lu、Uta Schönberg、Catherine Tucker、Joseph Vecci、Lise Vesterlund 以及各种会议/研讨会的参与者提供的宝贵意见。作者感谢腾讯 AI 实验室的 Xiaoqian Li 和百度研究院的 Zhihua Wu 在技术支持方面提供的帮助。作者还感谢一位未具名的围棋培训机构按照其要求实施了实验干预,并提供了本研究所需的数据。本文的所有结果均经过审查,确保不泄露个人身份信息。本研究的人类受试者批准由厦门大学(机构审查委员会:FEEL230501)获得。

注释

1 Arizton 预测,全球桌面游戏市场从 2022 年的 189.3 亿美元增长到 2028 年的 399.9 亿美元,预测期内复合年增长率约为 13%。他们还预计,到 2026 年,以人工智能为动力的游戏市场将达到 76.1 亿美元,从 2020 年的 15.6 亿美元开始,预测期内复合年增长率为 30.0%。感兴趣的读者可以访问 https://www.arizton.com/market-reports/global-board-games-market-industry-analysis-2024 获取报告。

2 依照惯例,我们将前 60 步定义为开局,接下来的 60 步定义为中局,之后的所有步骤定义为残局。

3 Elo 评分系统衡量玩家在零和游戏中相对的实力。玩家得分越高,其竞争力越强。

4 如果有些学生找不到外部对手,对手可能来自同一个培训机构。

5 培训机构原计划在隔离教师返回后立即切换回人工教学模式。我们向机构提出了严格测试 AI 培训及其潜在益处的想法。最终,他们友好地实施了我们的实验方案,允许 AI 继续教授实验组直到观察窗口结束。

6 所有观测变量在受影响学生和未受影响学生之间是平衡的。读者可以参见表 1 中的平衡检验。值得注意的是,在教学年开始之前,学生们已经支付了不可退还的学费,且我们没有发现治疗组中的任何学生退出该项目。在冲击发生前后,缺勤率均低于 3%,并且控制组和治疗组的出勤率没有显著差异。因此,由于自愿退出培训项目而导致的主要结果偏差的可能性不大。我们在在线附录 A.7 中提供了出勤率的详细分析。

仅关注这两个培训学期的原因是中国为了防控 COVID-19,所有课程都通过腾讯会议软件(中国的 Zoom 等同软件)在线进行(Bao 和 Huang,2021),这使我们能够进行干净的人类教学与 AI 教学对比。样本期内,培训机构将人类教学与 AI 教学以混合形式在线和面对面进行。面对面教学与在线教学不同,这在比较人类教学与 AI 教学时可能会引入额外的混淆因素。此外,人类授课和 AI 授课的混合使量化 AI 教学的影响变得困难。而且,培训机构没有记录面对面课程,因此我们没有数据对其进行分析。

8 KataGo 程序可在 https://github.com/lightvector/KataGo 获取。我们使用 KataGo(v1.11.0)来分析所有学生对弈的棋局。

9 一个潜在的担忧是,KataGo 算法可能偏向于理解 AI 训练的棋步并给予更高的评价。首先,如 Silver 等人(2016)所述,AI 算法如 KataGo 是基于棋步的有效性和效率来客观评估其在获胜中的作用,而不是偏袒 AI 生成的棋步。KataGo 的数据统计结果也与我们的胜率数据高度相关。其次,研究者发现基于 AI 的围棋算法在不同背景下表现出色,数据分布也具有鲁棒性,这表明 KataGo 能够公平地评估 AI 和人类训练的棋手的棋步(例如,Wu 2019)。此外,Wu(2019)展示了 KataGo 在不同来源的评分一致性,包括其他 AI 算法(例如,AlphaGo,Leela Chess Zero)和人类专家评估,确保了棋步评估的客观性。

一些障碍可能阻碍我们检查视频,包括网络连接缓慢、背景噪音大以及光线条件差等。我们在在线附录 A.1 中研究了视频可用性的决定因素,以应对样本选择偏差的潜在担忧。我们显示,遗漏视频与任何特征无关,因为在不同模型设定下所有系数均不具备统计显著性。

我们使用复合负面情绪指标而不是分别使用五个变量来捕捉每种负面情绪,因为机器学习算法有时在分类微妙的负面视觉情绪时不够准确,而合并负面情绪可以缓解这一担忧(Sun 等,2019)。

12 可以通过 https://github.com/tyiannak/pyAudioAnalysis 访问 Python 包 pyAudioAnalysis。

13 百度语音识别算法可以在 https://ai.baidu.com/tech/speech 获取。

14 谐波计量的情感分析词典可以在 https://hedonometer.org/words/labMT-zh-v2 获取。

15 语言维度的衡量只有一个变量,与视觉和声音维度的衡量不同。然而,这种差异并不会造成不一致性,因为语言维度的得分与另外两个维度的正面情感测量呈正相关,与负面情感测量呈负相关。

16 DID 模型的基本假设是,在没有 AI 培训的情况下(即,实验干预导致实验组和对照组之间的差异),实验组和对照组学生的成绩会保持平行趋势。这一平行趋势假设很可能成立,因为实验干预前,实验组和对照组学生的成绩相似。

在在线附录 A.2 和 A.3 中,我们展示了我们的结果对不同的固定效应设定和标准误差聚类具有稳健性。

18 当我们考虑在不同游戏阶段(包括开局、中局和残局)的平均移动质量改进时,如在线附录 C.1 所示,这一结果依然稳健。

19 如第 4.2 节所述,平均移动质量变量收集了游戏中所有移动的信息,并将其与一个共同标准进行比较,因此它是一个综合性的变量,能够近似反映学生的技能水平。此外,它是一个连续变量,可以避免处理离散因变量时可能遇到的计算困难。因此,我们将平均移动质量视为学生学习成果的主要衡量指标。当我们使用不同的衡量指标,如错误次数/关键错误次数和错误程度时,结果依然稳健,如在线附录 C.2 所示。

20 这篇论文的一个潜在限制是,线上培训的有效性可能不及面对面培训,而后者在教育环境中更为受欢迎。这可能会导致高估 AI 培训的效果。然而,我们的调查结果显示,超过一半的学生认为面对面教学优于线上教学,而文献表明,线上教学市场正在扩大,其有效性也在提升。这些观点在在线附录 C.5 中有进一步的详细说明。

21 男孩可能比女孩缺乏自制力,尤其是在 AI 主导的课堂上,这可能会对他们的 AI 培训产生不利影响。然而,这种解释不太可能成立:关于注意力不集中的调查结果显示,在人类教师和 AI 教师主导的课堂上,性别差异并不显著。读者可以参见在线附录 A.6 获取更多细节。

22 除非另有说明,所有比较调查答案的 p 值均来自两样本曼-惠特尼检验。

一个关于教师情绪与学生性别关系的担忧是,性别变量可能包含未观察到的学生质量信息。因此,被忽略的质量代理因素而非性别歧视可能驱动教师情绪的变化。我们使用 Oster(2019)开发的测试来解决这一可能性。感兴趣的读者可以参见在线附录 B.1 中的进一步结果。

24 观察窗口中的第一场锦标赛之前没有复习会。然而,在第一场训练课之前,所有教师都做了开场致辞,欢迎学生并宣布与课程相关的具体事项和宿舍规则。我们使用这些开场致辞的视频信息来解释学生在第一场比赛中的表现。即使删除这些观察结果,所有结果依然稳健。

25 需要注意的是,所有系数都是标准化的,因此我们无法通过比较第(7)列和第(8)列的系数大小来研究男生和女生对教师情绪的不同敏感度。在附录 B.3 中,我们将每个情绪变量与学生的性别进行交互,发现男生和女生在对教师情绪的敏感度上没有差异。