剛剛，谷歌 AI 路線圖曝光：竟要拋棄注意力機制？ Transformer 有致命缺陷

新智元·2025 年 06 月 17 日 10：51

谷歌 AI 路線圖：Gemini 全模態轉型，突破無限上下文需新架構。

未來 AI 路線圖曝光！谷歌發明瞭 Transformer，但在路線圖中承認：現有注意力機制無法實現「無限上下文」，這意味著下一代 AI 架構，必須「從頭重寫」。 Transformer 的時代，真的要終結了嗎？在未來，谷歌到底有何打算？

就在最近，谷歌未來的 AI 路線圖曝光！

谷歌產品負責人 Logan Kilpatrick 在 AI 工程師世界博覽會的演講中，介紹了 Gemini 模型的未來。

在未來，Gemini 的全模態是重點，模型正在逐步變成智慧體，推理能力還會持續擴展。

要點速覽——

· 全模態（r）

已經原生支援圖像 + 音訊生成，接下來是視頻

· Diffusion 的早期實驗（r）

擴散模型相關

· 預設具備 Agent 能力（m）

一流的工具調用與工具使用能力，但更重要的是，模型正在逐步變成智慧體

·推理能力持續擴展（s）

一個又一個研究突破接踵而至

· 更多小模型（s）

很快會有更多內容可以分享

· 無限上下文（r）

以當前注意力機制和上下文處理方式，這是不可能實現的我們需要在核心架構層面進行全新創新，才能實現這一目標

· 大模型

規模即一切

注意，（r）、（s）和（m）表示每個專案在谷歌路線圖中的進展程度：

•（s）= short： 短期/即將上線 ——表示已經在進行中或即將推出的專案

•（m）= medium：中期 ——仍在開發中的專案，將在未來幾個季度內推出

•（r）= research： 研究/長期專案 ——在發佈之前仍處於實驗階段或需要突破性進展

矽谷大廠混戰，AI 年中成績單大盤點

可以看出，谷歌現在是春風得意馬蹄疾，Gemini 2.5 Pro 讓它穩穩扳回了一局，再次證明瞭自己在 AI 領域老大哥的地位。

X 上的大 V「Chubby」，也對矽谷大廠們進行了一期「年中盤點」。

開放人工智慧

目前仍處於領先地位 ，憑藉 o3、o3 pro 以及即將到來的 GPT-5，依然地位穩固。他們保持著定期更新，經常發佈 AI 工具，不斷增長的用戶數量說明瞭一切。

深度 seek

DeepSeek 在 r1 取得可觀成功後陸續推出了重大更新 ，但目前全世界仍在等待後續產品 r2。關於 DeepSeek 後期將如何繼續推進，目前尚無線索。

人

仍然是軟體開發（SWE）領域的領頭羊 。如果其 CEO 所言不虛，智慧體和進一步的發展將在未來幾年內實現所有流程的自動化，並由通用智慧體來處理。目前，Anthropic 正專注於商業領域（這一點從較低的速率限制上也不難看出），並繼續保持強勁地位。

谷歌

然而， 今年最大的贏家可能是谷歌 ，它幾乎是從後起之秀躍居領先地位。 Gemini 已經取得了令人矚目成功。產品的定期更新、許多公告，包括出色的 TPU 定位，讓谷歌的未來看起來一片光明。

元

不可否認，Meta 已經落後了 。 Llama 4 失敗了，Behemoth 也還沒有發佈。小扎組建了新的超級智慧團隊，試圖再次迎頭趕上。 Alexandr Wang 從 Scale AI 加入 Meta 是否會成為轉捩點？仍有待觀察。

格羅克

Grok 3.5 也即將上線。目前很難評估。 Grok 在 Colossus 集群中顯然處於有利位置。然而，它是否能訓練出更好的模型？仍有待觀察 。

這其中評價最高的谷歌，接下來一段時間會有什麼大動作？

讓我們仔細看看 Logan Kilpatrick 的演講內容，從中找出關鍵線索。

全谷歌公認，Gemini 2.5 Pro 是谷歌重大轉捩點。

這次大會上，前 OpenAI 成員、谷歌 AI Studio 產品負責人 Logan Kilpatrick 的演講乾貨滿滿，透露了不少 Gemini 2.5 Pro 以及將來谷歌 Gemini 的計劃的細節 。

關於 Logan Kilpatrick 這位哥，還有一件趣事：據說 Gemini 製作笑話的能力完全是根據他的推文訓練出來的，這就是為什麼它們都不好笑。 🤣

目前，Logan Kilpatrick 負責 Gemini API 開發及 AGI 研究

在演講中，Logan Kilpatrick 快速講了三部分內容：

關於 Gemini 2.5 Pro 的一些有趣的發佈內容;

回顧過去一年的 Gemini 進展;

展望未來 —— 模型本身、Gemini App，以及開發者平臺的後續計劃。

關於 Gemini 2.5 Pro，他認為它被谷歌內部、也被外部開發者生態認為是一次「轉捩點」——

在數學、程式設計、推理上，全面封神，穩坐所有榜單第一。

它為 Gemini 的未來奠定了堅實的基礎。

Gemini 的願景「統一助手」

Logan Kilpatrick 給大家提了一個問題：谷歌過去各產品之間的連接是什麼？

大多數人會想到：谷歌帳號。但谷歌帳號本身其實不「保留狀態」，它的作用只是讓你登錄各個獨立產品。

而現在，Gemini 正在成為「統一線程」（thread）——串聯起谷歌所有服務的那條線。

Gemini App，很有意思，很酷，體現了谷歌如何思考 AI 產品的未來。

他相信，谷歌的未來會呈現出這樣的面貌：

Gemini 將成為統一介面 ，連接所有谷歌產品，形成真正的 「全域助手」。

目前大多數 AI 產品，仍然是「用戶主動操作」——你要主動提問，主動請求功能。

但最令人興奮的是 AI 的下一個階段：

「主動式 AI」（Proactive AI）——AI 主動為你發現問題、提供建議、自動處理任務。

而現在，谷歌全力押注新範式轉移：

多模態能力 ：原生音訊處理已支援 Astra 和 Gemini Live，Veo 技術保持業界領先，視頻整合將是下一階段重點

模型進化 ：從單純的 token 處理器轉向具備系統化推理能力的智慧體，「推理擴展」尤其值得關注

架構創新 ：包括小模型生態、無限上下文解決方案（需突破現有注意力機制限制）以及早期擴散實驗展現的驚人 token 處理能力

向「全模態統一模型」邁進

從模型層面看，Gemini 最初就被設想為一個統一多模態模型：音訊、圖像、視頻，全都能處理 。

在這方面，谷歌取得了很大進展：

谷歌 I/O 大會宣佈了 Gemini 的原生語音能力 （文本轉語音 TTS、語音合成、語音交互）;

它已經支援自然對話，聽起來非常自然 ;

這些能力已集成到 Astro 與 Gemini Live。

Astro 是谷歌的研究原型，探索為旗下產品帶來突破性能力的途徑。

目前，Astro 集成了下列能力：

谷歌還在推進「Veo」相關能力（Video + Other），它已在多個指標上達到 SOTA 水平，未來也會併入主線 Gemini 模型。

此外，谷歌還在研究「基於擴散的推理」（diffusion-based reasoning）—— Gemini Diffusion。但此專案仍屬研究前沿，尚未進入主線，但前景令人期待。

Gemini Diffusion 有極高吞吐速率，每秒可採樣 1000 餘 token

智慧體成為主流

最近，Logan Kilpatrick 一直在思考：隨著系統推理能力越來越強，未來 AI 產品是什麼形態？

過去，開發者總是把模型當作黑盒工具：

輸入 token，輸出 token;

然後在外部構建各種 scaffolding（支架）以增強功能。

但現在，情況變了：

模型自身越來越系統化，越來越能自主做事 ，不再只是「 被動計算機」。

他認為，「推理過程」將成為一個核心變革點：如何擴展模型的推理能力。

他非常期待的問題是：

過去外部做的很多 scaffolding，未來是否會被整合進模型的內部推理流程？這將徹底改變開發者構建產品的方式。

更多路線圖：小模型、大模型、無限上下文

除此之外，谷歌還會在以下新產品和研究上發力。

更多「小模型」——輕量級，適合移動端與低功耗設備;

更大的模型 ——滿足使用者對極致能力的期待;

更重要的是：「無限上下文」 的研究突破。

當前的 AI 模型架構（如 Transformer）的重要缺陷之一，就是無法很好地支持無限上下文。

谷歌認為，既然注意力機制無法無限擴展，那就必須有新結構。

他們正在積極探索：如何讓模型引入、理解並高效處理超大規模上下文。

即將上線的開發者功能重點如下。

嵌入模型（Embeddings） 雖然感覺像「AI 早期工具」，但仍是核心元件。 RAG 應用背後大多數都依賴 embedding。谷歌即將發佈一款最先進的 Gemini 嵌入模型 ，並拓展給更多開發者。

深度研究 API（Deep Research API） 使用者對「深度研究」功能喜愛有加。谷歌正在將這些能力聚合為專門的 API 介面，面向研究型產品開發者。

Veo3 與 Imagine 4 接入 API： 很快將上線。

最後一個重點，谷歌計劃重新定位「AI Studio」：

不再是 2C 產品，而是明確定位為「開發者平臺」。

未來，AI Studio 將成為真正的開發工具平臺 ，內嵌 Agent 構建能力，例如 Jules 或開發者專屬代碼 Agent，為開發者提供完整構建體驗。

2024：Gemini 最瘋狂的一年

對谷歌 Gemini 團隊來說，過去一年可以說是「最瘋狂的一年」。

在谷歌 I/O 上，劈柴展示了一頁幻燈片： 過去 12 個月，谷歌 Gemini 團隊彷彿壓縮了 10 年的開發工作 。

從個人角度出發，Logan Kilpatrick 認為谷歌真正的優勢在於：

不僅在做 AI 基礎研究，還在推進科學、幾何、機器人等多領域的研究，

這些研究最後都會反饋到主線 Gemini 模型中。

在谷歌 I/O 演講中，劈柴還展示了另一張幻燈片：在過去一年，谷歌伺服器 AI 推理任務處理量提升了 50 倍 ！

Logan Kilpatrick 認為：「這說明外部開發者生態對 Gemini 模型的需求呈爆炸式增長。」

其實背後的關鍵不只是技術，而是組織結構的變革。

2023 年初，谷歌把多個 AI 研究團隊整合到 DeepMind，制定了新方向：

不再僅限於理論研究，而是要做出真正實用的模型，服務於谷歌內部與外部開發者生態。

之後，又邁出第二步，將產品團隊也納入 DeepMind。這意味著：

DeepMind 負責研發模型、推動研究;

同時也打造產品並將其交付給全球使用者 。

最近，谷歌還任命 DeepMind 的首席技術官 Koray Kavukcuoglu 擔任新的高級副總裁職位——首席 AI 架構師。

科雷·卡武克措奧盧

與研究團隊密切合作，把尖端模型能力帶到現實世界——

這種「前沿協作」的過程讓 Logan Kilpatrick 個人非常享受。

這種創新的節奏非常令人興奮，他相信這才剛剛開始。

谷歌 DeepMind 內部公式很簡單， 總結一句話 ：

找到最優秀的人，發現基礎設施優勢，然後...... 不斷發佈！

參考資料

https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s

https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments

本文來自微信公眾號 “新智元”，作者：Aeneas KingHZ，36 氪經授權發佈。

該文觀點僅代表作者本人，36氪平臺僅提供資訊存儲空間服務。