关于 OpenAI 的思考
三周前我离开了 OpenAI。我最初是在 2024 年 5 月加入这家公司的。
我想分享我的思考,因为外界对 OpenAI 的所作所为充斥着大量烟雾与噪音,却鲜少有人亲述在那里工作的真实文化体验。
纳比尔·库雷希曾写过一篇精彩的文章《关于 Palantir 的思考》,深刻剖析了 Palantir 的独特之处。我希望趁记忆犹新时,为 OpenAI 留下类似的记录。这里不会有任何商业机密,更多是对这个处于极其有趣时期、堪称史上最迷人组织之一的现状观察。
开门见山地说:我离职的决定不涉及任何个人恩怨——事实上这个选择让我内心极度挣扎。从自己创业到成为三千人机构中的普通雇员,这种转变并不容易。此刻我渴望一个全新的开始。
未来工作的卓越性完全可能吸引我回归。很难想象还有什么能比通用人工智能更具影响力,而 LLMs 无疑是这十年来最重大的技术创新。能亲眼见证部分突破性进展并参与 Codex 的发布,我深感幸运。
显然这些观点并不代表公司立场——仅是我个人的观察。OpenAI 规模庞大,这里呈现的只是我个人的一隅之见。
文化
关于 OpenAI 首先要了解的是其惊人的扩张速度。我入职时公司刚过千人规模,一年后便突破三千人,而我的司龄竟已位列前 30%。几乎所有管理层现在从事的工作与 2-3 年前相比都发生了翻天覆地的变化。 1
如此迅猛的扩张自然会导致各种系统崩溃:公司沟通机制、汇报体系、产品交付流程、人员管理架构、招聘程序等等。不同团队文化差异显著:有些团队始终全速冲刺,有些团队专注维护大型项目,还有些团队保持着更为稳定的节奏。OpenAI 不存在统一的工作体验,研究部门、应用部门和市场推广部门遵循着截然不同的时间维度。
OpenAI 有个不同寻常之处:所有工作——真的是所有——都在 Slack 上完成。这里没有电子邮件,我在职期间总共可能只收到过 10 封邮件。如果你缺乏条理,这种模式会让人分心到崩溃;但若能妥善管理频道和通知设置,这套系统其实相当高效。
OpenAI 采用彻底的自下而上管理模式,研究部门尤其如此。我刚入职时曾询问下季度路线图,得到的答复是"这个不存在"(不过现在有了)。好创意可能来自任何角落,而且往往很难预先判断哪些想法最具潜力。这里没有宏大的"总体规划",进步是通过迭代实现的,随着新研究成果涌现而逐步明晰。
得益于这种自下而上的文化,OpenAI 也高度崇尚任人唯贤。历史上公司领导层的晋升主要取决于两点:提出优质创意的能力,以及将其落地的执行力。许多能力出众的领导者并不擅长全员大会演讲或办公室政治——这些在 OpenAI 的重要性远低于其他公司。在这里,最好的创意往往能胜出。 2
存在强烈的行动偏向(你可以直接动手做事)。不同但相似的团队在各类想法上不约而同地达成一致并不罕见。我最初参与的是一个与 ChatGPT 连接器类似的并行(但内部)项目。在我们决定推动正式发布前,公司内部至少流传着 3-4 个不同的 Codex 原型。这类尝试通常由少数人主动发起而无需请示,随着项目显现潜力,团队往往会迅速围绕其组建起来。
安德烈(Codex 项目负责人)曾告诉我,应该把研究员视为独立的"迷你执行官"。他们有着强烈的自主研究倾向,倾向于先动手实践再看结果。由此衍生出一个必然现象——多数研究是通过用特定问题"狙击"研究员来完成的。如果某个课题被认为无趣或"已解决",很可能就无人问津。
优秀的研究管理者能产生巨大影响,但同时也受到极大限制。最出色的管理者善于在不同研究项目间建立联系,整合出更大规模的模型训练方案。同样的情况也适用于顶尖的产品经理(向 ae 致敬)。
与我共事的 ChatGPT 产品经理们(Akshay、Rizzo、Sulman)是我见过最酷的客户。他们给人的感觉仿佛早已见识过所有风浪 3 。多数时候他们采取相对放权的管理方式,但善于任用优秀人才,并确保团队获得成功所需的支持。
OpenAI 能够瞬间调整战略方向。这种特质在 Segment 时期我们就极为看重——根据新信息及时修正路线,远比固执地坚持既定计划更有价值。令人惊叹的是,像 OpenAI 这样规模的企业仍保持着这种文化基因,而谷歌显然已失去这种品质。该公司决策迅速,一旦确定方向就会全力以赴。
公司承受着巨大的舆论审视。来自企业级服务背景的我对此颇感震惊。经常出现媒体报道先于内部公告的情况。当我说自己在 OpenAI 工作时,人们总会带着先入为主的评价。不少推特用户甚至运行自动机器人来监测新功能发布的蛛丝马迹。
因此,OpenAI 是个高度保密的地方。我无法向任何人详细透露自己的工作内容。公司设有多个权限各异的 Slack 工作区,而营收与资金消耗数据则受到更为严密的保护。
OpenAI 比你想象的更为严肃,部分原因在于其肩负的使命至关重要。一方面,团队致力于实现通用人工智能(AGI)的目标——这意味着需要确保无数细节的精确性。另一方面,他们正在打造一款数亿用户依赖的产品,从医疗咨询到心理治疗无所不包。更重要的是,公司正处于全球最激烈的竞技场中。我们会密切关注 Meta、Google 和 Anthropic 的动态——相信他们也同样如此。世界各国政府都以高度关注的目光注视着这个领域。
尽管 OpenAI 在媒体上频频遭受诋毁,但我在那里遇到的每个人实际上都在努力做正确的事。由于其消费者导向的定位,它成为大型实验室中最显眼的一个,也因此招致了大量诽谤。
话虽如此,或许我们不该将 OpenAI 视为铁板一块的整体。我认为 OpenAI 最初就像洛斯阿拉莫斯实验室那样起步——它是一群探索科学前沿的科学家和技术爱好者组成的团队。这个团队偶然间催生了史上最具病毒式传播力的消费级应用,继而发展出向政府和企业销售的雄心。随着时间推移,组织内不同资历、不同部门的人员逐渐形成了迥异的目标与观点。你在那里待得越久,就越可能透过"研究实验室"或"造福人类的非营利机构"的视角来看待事物。
我最欣赏的是这家公司在分配人工智能利益方面"说到做到"。尖端模型并非仅限于需要签订年度协议的企业级用户。世界上任何人都可以直接使用 ChatGPT 获取答案,甚至无需登录。还有可供注册使用的 API 接口——大多数模型(即便是最先进的或专有技术)往往很快就能通过 API 供初创企业使用。你可以想象一个与我们当前所处环境截然不同的运作模式。OpenAI 在这方面功不可没,而这依然是该公司最核心的基因特质。
安全问题的实际重要性可能远超你从兹维或"少错"社区获取的印象。有大量人员致力于开发安全系统。基于 OpenAI 的特性,我观察到更多关注点集中在实际风险(仇恨言论、滥用、操纵政治偏见、生物武器制造、自残行为、提示词注入)而非理论风险(智能爆炸、权力追逐)。这并非意味着无人研究后者,确实有团队专注于理论风险。但从我的视角来看,这并非工作重心。大部分研究成果并未公开,OpenAI 确实应该加大力度推动这些内容的发布。
与其他公司在招聘会上随意派发宣传品的做法不同,OpenAI 并不大量发放周边产品(甚至对新员工也是如此)。取而代之的是定期"限量投放"活动,员工可订购库存商品。首次活动因需求过载直接导致 Shopify 商店崩溃。当时内部流传过一篇教程,指导如何通过 POST 正确的 json 数据包来绕过系统限制。
与 GPU 成本相比,几乎所有开支都微不足道。举例说明:Codex 产品中一个冷门功能消耗的 GPU 资源,就相当于我们整个 Segment 基础设施的用量(虽不及 ChatGPT 规模,但也承载了相当比例的互联网流量)。
OpenAI 可能是我见过最具野心的机构。你或许认为拥有全球顶级消费级应用就足够了,但他们还渴望在数十个领域展开竞争:API 产品、深度研究、硬件设备、编程代理、图像生成,以及若干尚未公开的项目。这里就像创意的沃土,任其肆意生长。
该公司非常重视推特平台。如果你发布与 OpenAI 相关的内容并引发病毒式传播,很可能会有相关人员注意到并予以考虑。我的一位朋友开玩笑说:"这家公司是靠推特氛围运作的"。作为一家面向消费者的企业,这种说法或许不无道理。虽然公司仍会进行大量关于使用情况、用户增长和留存率的数据分析——但氛围营造同样重要。
OpenAI 的团队结构比其他公司更为灵活。在推出 Codex 时,我们需要几位有经验的 ChatGPT 工程师协助以确保按时发布。我们与 ChatGPT 的几位工程经理沟通后,次日就有两位顶尖人才加入支援。这里不存在"等待季度规划"或"重新调配人力"的官僚流程,一切推进都极其高效。
领导层具有高度可见性且深度参与。这在 OpenAI 这样的公司或许不足为奇,但每位高管都展现出极强的参与度。你会经常看到 Greg Brockman(gdb)、Sam Altman(sama)、Wojciech Zaremba(kw)、Mark Chen、Dane Morin 等人在 Slack 上积极发言。这里没有缺席的领导者。
代码
OpenAI 采用了一个巨型单体代码库,其中主要使用 Python(尽管逐渐增加了 Rust 服务,并零星分布着一些用于网络代理等功能的 Golang 服务)。这导致代码风格千奇百怪,因为 Python 的写法实在太多样。你会同时遇到来自谷歌十年老将设计的可扩展库,和刚毕业博士随手写的 Jupyter 笔记本。几乎所有 API 都基于 FastAPI 构建,数据验证则用 Pydantic。但公司层面并没有强制执行的代码风格规范。
OpenAI 全部系统都运行在 Azure 上。有趣的是,我认为真正可靠的服务只有三个:Azure Kubernetes 服务、CosmosDB(Azure 的文档存储)和 BlobStore。这里没有能真正对标 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 的服务。基于自动扩展单元的设计思路相对少见。IAM 实现方案的功能通常比 AWS 提供的更为有限。而且团队有强烈的自研倾向。
在人员方面(至少工程团队如此),从 Meta 到 OpenAI 的人才输送渠道非常显著。OpenAI 在许多方面都像早期的 Meta:拥有爆款消费级应用、处于基础设施初创阶段、且追求极速发展。我所见从 Meta 和 Instagram 引进的基础设施人才大多实力强劲。
将这些因素综合起来,你会发现基础设施的诸多核心部分都带有 Meta 的影子。比如内部重实现了 TAO 系统,在边缘端统一身份认证体系的努力,当然肯定还有许多我不了解的其他方面。
聊天功能已深度融入系统架构。自 ChatGPT 爆发式增长后,大量代码库都围绕聊天消息和会话概念构建。这些基础组件现已根深蒂固,忽视它们将自担风险。我们在 Codex 项目中虽有所调整(更侧重响应 API 的经验),但仍大量借鉴了既有成果。
代码为王。与依赖中央架构或规划委员会不同,决策通常由实际执行工作的团队做出。这导致强烈的行动导向倾向,代码库中经常出现大量重复组件。我至少见过六七个不同的队列管理或代理循环实现库。
在工程团队快速扩张而工具链建设滞后的领域,我们确实遇到了一些问题。sa-server(后端单体架构)成了代码堆砌的重灾区。主干分支的持续集成系统崩溃频率远超预期。即便并行运行测试用例并仅计算部分依赖项,GPU 上的测试仍需约 30 分钟才能完成。这些问题并非无法解决,但确实提醒我们:这类挑战普遍存在,且在超高速扩张时会愈发严重。值得肯定的是,内部团队正全力投入改善这一现状。
其他收获包括
大型消费品牌的模样。在开始研发 Codex 之前,我并未真正理解这一点。所有指标都以"付费订阅数"来衡量。即便是 Codex 这样的产品,我们最初设想的用户场景也主要是个人使用而非团队协作。这让我这个长期从事 B2B/企业级业务的人颇感冲击——只需启动开关,第一天就能获得用户流量。
大模型训练概览。整个过程存在从"实验探索"到"工程实现"的演进谱系。多数创意最初都始于小规模实验,当结果显现潜力时,才会被整合进更大规模的训练。实验过程既涉及核心算法的调优,也包含数据配比的调整与结果的精细分析。而大规模训练阶段则宛如巨型分布式系统工程,总会遇到意料之外的边界案例和异常状况,这些都需要开发者亲自调试解决。
如何进行 GPU 数学运算。作为 Codex 发布的一部分,我们必须预测负载容量需求,这是我第一次真正花时间对 GPU 进行基准测试。关键在于,你应该从实际需要的延迟要求出发(总体延迟、令牌数量、首令牌时间),而不是自下而上分析 GPU 能支持什么。每次新模型迭代都可能彻底改变负载模式。
如何管理大型 Python 代码库。Segment 采用了微服务架构组合,主要使用 Golang 和 Typescript。我们的代码规模远不及 OpenAI。我学到了很多关于如何根据开发人员数量来扩展代码库的经验。必须建立更多防护措施,比如"默认可用"、"保持主分支清洁"和"难以误用"等原则。
Codex 的发布
我在 OpenAI 最后三个月的主要工作就是发布 Codex。这无疑是我职业生涯的高光时刻之一。
为铺垫背景,早在 2024 年 11 月,OpenAI 就制定了 2025 年发布编程智能体的目标。到 2025 年 2 月,我们内部已流通着几款高效运用模型的工具。当时我们正承受着推出专用编程助手的压力——显然模型能力已发展到对编程极具实用价值的阶段(市场上涌现的沉浸式编程工具就是明证)。
我提前结束陪产假归队参与 Codex 项目发布。返岗一周后,两个团队完成(略显混乱的)合并,随即展开疯狂冲刺。从写下第一行代码算起,整个产品仅用 7 周便开发完成。
那场 Codex 冲刺可能是我近十年来最艰苦的工作经历。多数夜晚都熬到 11 点甚至午夜,每天清晨 5:30 被新生儿吵醒,7 点又回到办公室,周末基本无休。我们整个团队全力以赴,因为每周都至关重要。这让我回想起在 YC 创业加速器的日子。
这种发展速度之惊人实在难以言表。我从未见过任何规模的组织能在如此短时间内从构想到全面推出可免费使用的产品。而且项目规模并不小:我们构建了容器运行时、优化了代码库下载机制、微调了定制模型来处理代码编辑、处理各类 git 操作、引入了全新的交互界面、实现了联网功能,最终打造出一款用户体验极佳的产品。 4
不论如何评价,OpenAI 仍保持着这种产品发布时的创新激情。 5
好消息是,合适的人选能创造奇迹。我们团队由约 8 名资深工程师、4 名研究员、2 名设计师、2 名市场推广人员和 1 名产品经理组成。若非这个团队,我们很可能以失败告终。虽然不需要过多指导,但确实需要大量协调工作。若有机会与 Codex 团队的任何人共事,请相信他们个个都出类拔萃。
发布前夜,我们五人熬到凌晨四点才完成主系统的部署(这一过程耗时数小时)。随后赶回办公室准备上午八点的产品发布直播。当我们启动功能开关时,流量如潮水般涌入——从未见过哪款产品仅凭左侧边栏展示就能获得如此立竿见影的关注度,这就是 ChatGPT 的魔力所在。
在产品形态上,我们最终确定了完全异步的交互模式。不同于 Cursor(当时版本,现已支持类似功能)或 Claude Code 等工具,我们的设计允许用户发起任务后,让智能体在独立环境中持续运行。我们押注的终极场景是:用户应当像对待同事那样与编程助手协作——发送指令后给予其工作时间,最终它会带着代码提交请求返回。
这确实带着冒险性质:当前模型处于微妙状态——性能尚可但未达卓越。它们能连续工作几分钟,但还撑不过数小时。用户对模型能力的信任度差异悬殊,甚至我们自己也难以界定这些模型的真实能力边界。
从长远来看,我确实相信大多数编程将更接近 Codex 的模式。在此期间,观察各类产品的演变将会十分有趣。
Codex(或许并不令人意外)在大型代码库中表现极为出色,能够理解并导航复杂代码结构。与其他工具相比,我观察到最显著的差异在于它能同时启动多项任务并比较输出结果。
最近我看到公开数据对比了不同 LLM 代理生成的 PR 数量。仅公开数据显示,Codex 已生成 63 万条 PR。自发布 53 天以来,相当于每位工程师贡献了 7.8 万条公开 PR(私有 PR 的数量级可自行推测)。这或许是我职业生涯中见过影响力最深远的项目。
临别感言
说实话,最初我对加入 OpenAI 心存顾虑。我不确定牺牲个人自由、接受上级管理、成为庞大机器中的微小部件会是怎样的体验。我低调处理了自己入职的消息,以防这份工作并不适合我。
我确实希望从这段经历中获得三样东西...
建立关于模型训练方式及能力发展方向的直觉认知
与杰出人才共事并向他们学习
推出一款伟大的产品
回顾这一年,我认为这是我做过的最佳决策之一。很难想象在其他地方能学到更多东西。
如果你是一位创始人,感觉自己的初创企业毫无进展,你应该:1)深刻反思如何争取更多机会;2)加入大型实验室。当下既是创造的黄金时代,也是洞察未来走向的绝佳时机。
在我看来,通往通用人工智能的道路目前是三足鼎立:OpenAI、Anthropic 和谷歌。这些机构将基于各自基因(消费端/企业端/坚如磐石的基础设施+数据)采取不同路径。 6 在其中任何一家工作都将令人大开眼界。
感谢 Leah 的鼎力支持,在无数个深夜承担了主要的育儿责任。感谢 PW、GDB 和 Rizzo 给我这个机会。感谢 SA 团队的同事带我入门:Andrew、Anup、Bill、Jeremy、Kwaz、Ming、Simon、Tony 和 Val。也感谢 Codex 核心团队让我体验了毕生难忘的旅程:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。这段冲刺时光我将永生难忘。
砰。
Footnotes
-
每当有领导者离职时,人们总容易过度解读其中的戏剧性因素,但我认为约 70%的情况仅此而已。↩ -
我确实认为我们正经历一个微妙的转型阶段。公司正在从外部引进大量高级管理层人员。总体而言我支持这种做法,我认为注入外部新鲜基因能让公司受益匪浅。↩ -
我意识到,有史以来增长最快的消费产品规模化过程往往会积累强大的实力。 -
当然,我们也站在巨人的肩膀上。CaaS 团队、核心强化学习团队、人类数据团队以及通用应用基础设施让这一切成为可能。 -
我们持续保持着这种发展势头。 -
几周前我们看到 Meta 进行了几项重大人才引进。xAI 发布的 Grok 4 在基准测试中表现优异。Mira 和 Ilya 都拥有杰出才能(人才确实优秀),这或许会改变竞争格局。不过他们仍需追赶一段距离。