
独家
OpenAI 的坎坷之路:通往 GPT-5
开发 GPT-5 过程中 OpenAI 遇到的问题预示着整个行业 AI 进展的放缓。研究人员认为,强化学习的进步将有助于克服这一问题。
Stephanie Palazzolo, 和 Amir Efrati
OpenAI CEO 萨姆·阿尔特曼。插图 by 迈克·萨利文
OpenAI 在 12 月引起了行业的关注,当时它发布了其测试结果,结果显示,当人工智能获得更多的处理时间和计算能力时,其在任务上的表现会更好。这些结果暗示,ChatGPT 的用户即将被新的人工智能所震撼。
但这种兴奋很快便烟消云散。
当 OpenAI 的研究人员将新的人工智能转化为一种基于聊天的版本 o3,能够响应 ChatGPT 客户指令时,根据两位参与其开发的人士的说法,该公司此前公布的性能提升大多消失了。
要点总结
• GPT-5 将在性能上有所改进,但这些改进与早期 GPT 品牌模型之间的性能飞跃不可同日而语
• 今年,OpenAI 遭遇了一系列技术问题,这些技术问题威胁到了 o3 和其他模型
• 研究主管马克·陈与一名副手之间的分歧在 Slack 上公开化
这一集是今年早些时候 OpenAI 面临的技术挑战的一个例子,这些挑战有可能会减缓其人工智能进步的步伐,甚至影响其热门的 ChatGPT 业务。
但其研究人员通过采用在全行业迅速兴起的技术手段,找到了继续推进人工智能进步的方法。
据使用过或熟悉该公司内部评估的人士透露,OpenAI 现在即将发布其下一代旗舰人工智能模型 GPT-5,该模型在完成实用的计算机编程和数学任务等方面的能力有所提升。
例如,当新模型编写应用程序时,它在增加使应用程序更易于使用且更具美观性的功能方面表现更好,据其中一人透露。
GPT-5 在处理复杂任务时也比其前身更擅长在最少的人工监督下运行 AI 代理,这位知情人士说。例如,它可以遵循复杂的指令,比如一套规则,用来决定何时应由自动客服代理提供退款。
此前的模型在能够处理此类退款之前,需要看到几个棘手的客户案例,即所谓的边缘案例,这位知情人士说。
这些改进与早期 GPT 品牌模型的性能飞跃相比并不显著,比如 2020 年的 GPT-3 与 2023 年的 GPT-4 之间的改进,知情人士之一说。而 OpenAI 在过去一年中性能提升放缓的趋势表明,该公司在人工智能能力方面超越最大竞争对手可能变得困难。
但当前的 OpenAI 模型通过驱动聊天机器人和其他应用已经产生了巨大的商业价值,任何改进,即使是渐进式的,都会增加客户的需求。这些改进也可能让新的投资者有信心为公司在未来三年半内烧掉 450 亿美元的计划提供资金,该公司需要租用昂贵的服务器来开发和运行其产品。
编程优先级
最新的进展也解释了为什么 OpenAI 的高管们在最近几周向一些投资者表示,他们相信公司可以达到“GPT-8”。
这些评论与 CEO 萨姆·阿尔特曼的公开评论一致,即利用现有的技术知识,OpenAI 可以实现创造出与最聪明的人类能力相当或接近的人工智能的目标。这种技术也被称为人工通用智能。
虽然距离强人工智能(AGI)还很遥远,但即将推出的 GPT-5 模型可能还具有其他吸引人的特性,除了更好的编程和推理能力。据一位了解情况的微软员工透露,微软拥有 OpenAI 知识产权的独家权利,一些微软领导人在测试该模型时发现,它能够生成高质量的代码和其他文本答案,而不需要消耗更多的计算资源。
这在很大程度上是因为它能够比之前的模型更好地判断哪些任务需要相对更多的或更少的计算资源,据知情人士透露。
在去年 Anthropic 在开发和销售此类模型给软件开发者和编码助手(如 Cursor)方面取得领先之后,提高 AI 自动化编程任务的能力成为 OpenAI 的优先事项,根据 OpenAI 内部评估。OpenAI 员工认为,自动化编程不仅对公司业务至关重要,对自动化 AI 研究人员自己的工作也同样至关重要。
重组造成压力
OpenAI 的进展并非一帆风顺,今年其研究人员和管理层都面临着新的压力。
一些高级研究人员抵制将他们的发明交给微软,尽管微软作为 OpenAI 最大的外部股东,拥有到 2030 年的合同权利。
这两家公司之间有紧密的财务关系,但双方在协议条款上存在争执,每当 OpenAI 试图重新构架其盈利部门以便最终上市时,双方都会寻求对方让步。
据两名知情人士透露,微软与 OpenAI 之间的谈判正在朝着积极的方向发展。尽管仍有许多谈判要点悬而未决,但其中一些似乎已经达成共识,例如,根据其中一名知情人士的说法,作为重组的一部分,微软很可能将获得 OpenAI 盈利部门约 33%的股权。
最近,Meta Platforms 招聘了十几名 OpenAI 研究人员,其中一些人曾参与该公司近期用来改进技术的方法。Meta 用足以媲美最高薪足球明星的薪酬包说服了他们。
这些人员变动及其相应的重组措施给 OpenAI 的高级员工带来了压力。上周,OpenAI 研究副总裁杰里·特罗雷克在公司内部的 Slack 应用上向研究负责人马克·陈抱怨了一次团队变动,这一消息对许多其他同事也是可见的。
特罗雷克表示他需要花一周时间重新评估情况,但最终他并没有请这个假。
星尘陨落
该公司业务进展掩盖了一些内部担忧,即其是否能够继续改进 AI 技术并在与谷歌、埃隆·马斯克的 xAI 和 Anthropic 等财力雄厚的竞争对手中保持领先。
在当前年份开始之前,问题已经酝酿了几个月。2024 年下半年,OpenAI 正在开发一个名为“Orion”的模型,计划使其成为 GPT-5。据参与该项目的人士透露,Orion 相较于同年五月发布的旗舰版 GPT-4o,性能将有显著提升。
但奥里翁项目未能开发出更好的模型,该公司反而在今年 2 月发布了 GPT-4.5。此后,该项目已不再具有重要性。
失败的部分原因在于预训练阶段的局限性,这是开发模型的第一阶段,在此阶段,模型会处理来自网络和其他来源的数据,以便在概念之间建立联系。
不仅 OpenAI 面临高质量网络数据供应减少的问题,研究人员还发现,他们对模型所做的调整在模型较小的时候有效,但随着模型变大,这些调整就不再有效,据知情人士透露。
更多 Nvidia 芯片
“据曾参与该项目的人士称,直到今年 6 月,技术问题意味着 OpenAI 正在开发的模型中没有一个好到足以被标记为 GPT-5 的程度。
OpenAI 的研究人员遇到了其他问题。
去年,该公司还开发了推理模型,这些模型在获得更多的计算能力来处理答案时表现更好。这些模型源自 2023 年末的一项突破性进展 Q*,这一进展让研究人员感到震惊,因为它能够解决之前未见过的数学问题。到 2024 年,推理模型似乎帮助公司克服了预训练期间性能提升放缓的问题。
去年秋天,OpenAI 将首个主要推理模型 o1 转向应用开发者销售,并利用其驱动 ChatGPT 内的对话。
这次发布让 OpenAI 在人工智能领域获得了新的影响力,并为依赖推理模型在最少人类监督下完成任务的人工智能代理的发展奠定了基础。
在 2024 年底前,OpenAI 创建了下一个推理模型 o3,该模型使用了与 o1 基础模型相同的大型语言模型 GPT-4o,据参与其开发的人士透露。
尽管 o3 的父模型(也被称为教师模型)与 o1 的父模型出自同一系列,但据知情人士透露,o3 的父模型在理解各种科学及其他领域方面取得了非凡的进步。

OpenAI 研究主管马克·陈。图片来自 Getty
参与该项目的两人表示,性能提升的一个原因是 OpenAI 决定为 o3 的父模型配备大量 Nvidia 芯片服务器,从而赋予它更多的计算能力来理解复杂的概念。另一原因是研究人员赋予它搜索网络或从代码库中提取信息的能力,这也帮助它在 o1 的父模型基础上有所改进。
o3 的父模型,类似于 o1 的父模型,也得益于强化学习,在这种学习方式中,人类专家会在生物学、软件工程和医学等领域提出棘手的问题和答案,然后让模型生成成千上万的答案。
随后,OpenAI 将模型训练在那些与人类专家答案一致的生成答案上。(这些由 AI 生成的答案也被称为合成数据。)
杂乱推理
OpenAI 在公开分享模型强项的特殊测试结果时,引起了全球的头条新闻和社交媒体上的病毒式 hype,但随后现实开始显现。
当 OpenAI 将 o3 父模型转换为聊天版本的模型——也就是学生模型——并允许人们向其提问时,其性能显著下降,参与开发的人士表示,甚至不如 o1。
他们还表示,当 OpenAI 创建一个版本的模型,公司可以通过应用程序编程接口购买时,也出现了同样的问题。
其中一个原因与模型理解概念的独特方式有关,这种方式可能与人类的交流方式不同,有一个人说。创建基于聊天的版本实际上会削弱模型的原始天才水平,因为它被迫用人类的语言而非自己的语言交流,这个人说。(ChatGPT 在“思考”如何解决问题时有时会表现出的无意义内容反映了这些交流差异的一部分。)

据一位参与其中的人士称,该公司也没有足够重视训练模型在聊天中与人类有效沟通。
尽管性能有所下降,OpenAI 今年公开发布的 o3 推理模型仍帮助核聚变和病原体检测领域的科学家们提出了新的假设和实验方案。 这有助于他们进行测试 。
然而,LLMs 和基于聊天的推理模型并没有像 OpenAI 领导层和研究人员所期望的那样取得进展。o 系列模型似乎也让 ChatGPT 的用户感到困惑,因此该公司决定将其模型名称重新命名为 GPT 系列,阿特曼向员工解释了这一点。
据曾参与该项目的人士称,直到今年 6 月,技术问题意味着 OpenAI 正在开发的模型中没有一个好到足以被标记为 GPT-5 的程度。
‘通用验证器’
但 OpenAI 还有一个后手:一位了解该项目的人士表示,OpenAI 一直在开发一种研究人员称之为“通用验证器”的工具,该工具能够在 RL 过程中自动化确保模型生成高质量答案的过程。
这个过程本质上是让一个 LLM 使用各种来源来研究和评估另一个模型的答案,并据此进行检查和评分。
今年夏天,当 OpenAI 的一个模型在一场艰难的数学竞赛中获胜后,该公司高级研究员亚历山大·魏在 X 平台上表示,他们一直在使用的 RL 方法是“通用的”,这意味着它也可以验证更主观类别答案的质量。
这些进步似乎帮助 OpenAI 在开发 GPT-5 方面取得了进展,GPT-5 在软件编程等更容易验证的领域表现出了改进,而在创意写作等更主观的领域也有所提升。
行业其他公司,包括 xAI 和谷歌,也加大了对强化学习(RL)作为提升 AI 模型有前途的技术的支持,并且 OpenAI 的 RL 负责人 Tworek 最近公开表示,同意 RL 系统实际上构成了 AGI 这一观点。
当 OpenAI 发布 GPT-5 时,GPT-5 将面临极高的期望。Alt 曼上周在与喜剧演员 Theo Von 的一次播客中提到了 GPT-5 的能力,当时 Alt 曼解释说,该模型轻松地回答了一个他不理解的问题。
“GPT-5 在几乎所有方面都比我们更聪明。”他说。
Aaron Holmes 和 Kalley Huang 也为本文做出了贡献。
Stephanie Palazzolo 是《信息》杂志的记者,负责报道人工智能。她之前在 Business Insider 报道人工智能,在摩根士丹利担任投资银行家。她位于纽约,可以通过 stephanie@theinformation.com 或 Twitter @steph_palazzolo 与她联系。
Erin Woo 是《信息》杂志驻旧金山的记者,负责报道 Google 和 Alphabet。您可以通过 Signal 的 @erinkwoo.07 联系她,或者通过 erin@theinformation.com 和 @erinkwoo 在 X 上联系她。
Amir Efrati 是《信息》杂志的执行主编,他于 2013 年帮助创办了该杂志。此前,他在《华尔街日报》担任记者九年,报道白领犯罪,后来转向科技领域。您可以通过 amir@theinformation.com 联系他,并在 Twitter 上关注他 @amir。
