剛剛,谷歌 AI 路線圖曝光:竟要拋棄注意力機制? Transformer 有致命缺陷
谷歌 AI 路線圖:Gemini 全模態轉型,突破無限上下文需新架構。
未來 AI 路線圖曝光! 谷歌發明瞭 Transformer,但在路線圖中承認:現有注意力機制無法實現「無限上下文」,這意味著下一代 AI 架構,必須「從頭重寫」。 Transformer 的時代,真的要終結了嗎? 在未來,谷歌到底有何打算?
就在最近,谷歌未來的 AI 路線圖曝光!
谷歌產品負責人 Logan Kilpatrick 在 AI 工程師世界博覽會的演講中,介紹了 Gemini 模型的未來。
在未來,Gemini 的全模態是重點,模型正在逐步變成智慧體,推理能力還會持續擴展。
要點速覽——
· 全模態(r)
已經原生支援圖像 + 音訊生成,接下來是視頻
· Diffusion 的早期實驗(r)
擴散模型相關
· 預設具備 Agent 能力(m)
一流的工具調用與工具使用能力,但更重要的是,模型正在逐步變成智慧體
·推理能力持續擴展(s)
一個又一個研究突破接踵而至
· 更多小模型(s)
很快會有更多內容可以分享
· 無限上下文(r)
以當前注意力機制和上下文處理方式,這是不可能實現的 我們需要在核心架構層面進行全新創新,才能實現這一目標
· 大模型
規模即一切
注意,(r)、(s) 和 (m) 表示每個專案在谷歌路線圖中的進展程度:
•(s)= short: 短期/即將上線 ——表示已經在進行中或即將推出的專案
•(m)= medium: 中期 ——仍在開發中的專案,將在未來幾個季度內推出
•(r)= research: 研究/長期專案 ——在發佈之前仍處於實驗階段或需要突破性進展
矽谷大廠混戰,AI 年中成績單大盤點
可以看出,谷歌現在是春風得意馬蹄疾,Gemini 2.5 Pro 讓它穩穩扳回了一局,再次證明瞭自己在 AI 領域老大哥的地位。
X 上的大 V「Chubby」,也對矽谷大廠們進行了一期「年中盤點」。
開放人工智慧
目前仍處於領先地位 ,憑藉 o3、o3 pro 以及即將到來的 GPT-5,依然地位穩固。 他們保持著定期更新,經常發佈 AI 工具,不斷增長的用戶數量說明瞭一切。
深度 seek
DeepSeek 在 r1 取得可觀成功後陸續推出了重大更新 ,但目前全世界仍在等待後續產品 r2。 關於 DeepSeek 後期將如何繼續推進,目前尚無線索。
人
仍然是軟體開發(SWE)領域的領頭羊 。 如果其 CEO 所言不虛,智慧體和進一步的發展將在未來幾年內實現所有流程的自動化,並由通用智慧體來處理。 目前,Anthropic 正專注於商業領域(這一點從較低的速率限制上也不難看出),並繼續保持強勁地位。
谷歌
然而, 今年最大的贏家可能是谷歌 ,它幾乎是從後起之秀躍居領先地位。 Gemini 已經取得了令人矚目成功。 產品的定期更新、許多公告,包括出色的 TPU 定位,讓谷歌的未來看起來一片光明。
元
不可否認,Meta 已經落後了 。 Llama 4 失敗了,Behemoth 也還沒有發佈。 小扎組建了新的超級智慧團隊,試圖再次迎頭趕上。 Alexandr Wang 從 Scale AI 加入 Meta 是否會成為轉捩點? 仍有待觀察。
格羅克
Grok 3.5 也即將上線。 目前很難評估。 Grok 在 Colossus 集群中顯然處於有利位置。 然而,它是否能訓練出更好的模型? 仍有待觀察 。
這其中評價最高的谷歌,接下來一段時間會有什麼大動作?
讓我們仔細看看 Logan Kilpatrick 的演講內容,從中找出關鍵線索。
全谷歌公認,Gemini 2.5 Pro 是谷歌重大轉捩點。
這次大會上,前 OpenAI 成員、谷歌 AI Studio 產品負責人 Logan Kilpatrick 的演講乾貨滿滿,透露了不少 Gemini 2.5 Pro 以及將來谷歌 Gemini 的計劃的細節 。
關於 Logan Kilpatrick 這位哥,還有一件趣事:據說 Gemini 製作笑話的能力完全是根據他的推文訓練出來的,這就是為什麼它們都不好笑。 🤣
目前,Logan Kilpatrick 負責 Gemini API 開發及 AGI 研究
在演講中,Logan Kilpatrick 快速講了三部分內容:
關於 Gemini 2.5 Pro 的一些有趣的發佈內容;
回顧過去一年的 Gemini 進展;
展望未來 —— 模型本身、Gemini App,以及開發者平臺的後續計劃。
關於 Gemini 2.5 Pro,他認為它被谷歌內部、也被外部開發者生態認為是一次「轉捩點」——
在數學、程式設計、推理上,全面封神,穩坐所有榜單第一。
它為 Gemini 的未來奠定了堅實的基礎。
Gemini 的願景「統一助手」
Logan Kilpatrick 給大家提了一個問題:谷歌過去各產品之間的連接是什麼?
大多數人會想到:谷歌帳號。 但谷歌帳號本身其實不「保留狀態」,它的作用只是讓你登錄各個獨立產品。
而現在,Gemini 正在成為「統一線程」(thread)——串聯起谷歌所有服務的那條線。
Gemini App,很有意思,很酷,體現了谷歌如何思考 AI 產品的未來。
他相信,谷歌的未來會呈現出這樣的面貌:
Gemini 將成為統一介面 ,連接所有谷歌產品,形成真正的 「全域助手」。
目前大多數 AI 產品,仍然是「用戶主動操作」——你要主動提問,主動請求功能。
但最令人興奮的是 AI 的下一個階段:
「主動式 AI」 (Proactive AI)——AI 主動為你發現問題、提供建議、自動處理任務。
而現在,谷歌全力押注新範式轉移:
多模態能力 :原生音訊處理已支援 Astra 和 Gemini Live,Veo 技術保持業界領先,視頻整合將是下一階段重點
模型進化 :從單純的 token 處理器轉向具備系統化推理能力的智慧體,「推理擴展」尤其值得關注
架構創新 :包括小模型生態、無限上下文解決方案(需突破現有注意力機制限制)以及早期擴散實驗展現的驚人 token 處理能力
向「全模態統一模型」邁進
從模型層面看,Gemini 最初就被設想為一個統一多模態模型:音訊、圖像、視頻,全都能處理 。
在這方面,谷歌取得了很大進展:
谷歌 I/O 大會宣佈了 Gemini 的原生語音能力 (文本轉語音 TTS、語音合成、語音交互);
它已經支援自然對話,聽起來非常自然 ;
這些能力已集成到 Astro 與 Gemini Live。
Astro 是谷歌的研究原型,探索為旗下產品帶來突破性能力的途徑。
目前,Astro 集成了下列能力:
谷歌還在推進「Veo」相關能力(Video + Other),它已在多個指標上達到 SOTA 水平,未來也會併入主線 Gemini 模型。
此外,谷歌還在研究「基於擴散的推理」(diffusion-based reasoning)—— Gemini Diffusion。 但此專案仍屬研究前沿,尚未進入主線,但前景令人期待。
Gemini Diffusion 有極高吞吐速率,每秒可採樣 1000 餘 token
智慧體成為主流
最近,Logan Kilpatrick 一直在思考:隨著系統推理能力越來越強,未來 AI 產品是什麼形態?
過去,開發者總是把模型當作黑盒工具:
輸入 token,輸出 token;
然後在外部構建各種 scaffolding(支架)以增強功能。
但現在,情況變了:
模型自身越來越系統化,越來越能自主做事 ,不再只是「 被動計算機」。
他認為,「推理過程」將成為一個核心變革點:如何擴展模型的推理能力。
他非常期待的問題是:
過去外部做的很多 scaffolding,未來是否會被整合進模型的內部推理流程? 這將徹底改變開發者構建產品的方式。
更多路線圖:小模型、大模型、無限上下文
除此之外,谷歌還會在以下新產品和研究上發力。
更多「小模型」——輕量級,適合移動端與低功耗設備;
更大的模型 ——滿足使用者對極致能力的期待;
更重要的是:「無限上下文」 的研究突破。
當前的 AI 模型架構(如 Transformer)的重要缺陷之一,就是無法很好地支持無限上下文。
谷歌認為,既然注意力機制無法無限擴展,那就必須有新結構。
他們正在積極探索: 如何讓模型引入、理解並高效處理超大規模上下文。
即將上線的開發者功能重點如下。
嵌入模型(Embeddings) 雖然感覺像「AI 早期工具」,但仍是核心元件。 RAG 應用背後大多數都依賴 embedding。 谷歌即將發佈一款最先進的 Gemini 嵌入模型 ,並拓展給更多開發者。
深度研究 API(Deep Research API) 使用者對「深度研究」功能喜愛有加。 谷歌正在將這些能力聚合為專門的 API 介面,面向研究型產品開發者。
Veo3 與 Imagine 4 接入 API: 很快將上線。
最後一個重點,谷歌計劃重新定位「AI Studio」:
不再是 2C 產品,而是明確定位為「開發者平臺」。
未來,AI Studio 將成為真正的開發工具平臺 ,內嵌 Agent 構建能力,例如 Jules 或開發者專屬代碼 Agent,為開發者提供完整構建體驗。
2024:Gemini 最瘋狂的一年
對谷歌 Gemini 團隊來說,過去一年可以說是「最瘋狂的一年」。
在谷歌 I/O 上,劈柴展示了一頁幻燈片: 過去 12 個月,谷歌 Gemini 團隊彷彿壓縮了 10 年的開發工作 。
從個人角度出發,Logan Kilpatrick 認為谷歌真正的優勢在於:
不僅在做 AI 基礎研究,還在推進科學、幾何、機器人等多領域的研究,
這些研究最後都會反饋到主線 Gemini 模型中。
在谷歌 I/O 演講中,劈柴還展示了另一張幻燈片:在過去一年,谷歌伺服器 AI 推理任務處理量提升了 50 倍 !
Logan Kilpatrick 認為:「這說明外部開發者生態對 Gemini 模型的需求呈爆炸式增長。」
其實背後的關鍵不只是技術,而是組織結構的變革。
2023 年初,谷歌把多個 AI 研究團隊整合到 DeepMind,制定了新方向:
不再僅限於理論研究,而是要做出真正實用的模型,服務於谷歌內部與外部開發者生態。
之後,又邁出第二步,將產品團隊也納入 DeepMind。 這意味著:
DeepMind 負責研發模型、推動研究;
同時也打造產品並將其交付給全球使用者 。
最近,谷歌還任命 DeepMind 的首席技術官 Koray Kavukcuoglu 擔任新的高級副總裁職位——首席 AI 架構師。
科雷·卡武克措奧盧
與研究團隊密切合作,把尖端模型能力帶到現實世界——
這種「前沿協作」的過程讓 Logan Kilpatrick 個人非常享受。
這種創新的節奏非常令人興奮,他相信這才剛剛開始。
谷歌 DeepMind 內部公式很簡單, 總結一句話 :
找到最優秀的人,發現基礎設施優勢,然後...... 不斷發佈!
參考資料
https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s
https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments
本文來自微信公眾號 “新智元”,作者:Aeneas KingHZ,36 氪經授權發佈。





谷歌的發明直接推動了兩次 IT 技術浪潮,雲服務和大語言模型