2025年11月26日 星期三

「究竟TPU能否取代GPU了」fomo 研究院

 fomo 研究院

這兩天,最熱烈的討論就是「究竟TPU能否取代GPU了」。
正反雙方的意見百花齊放,其中一個廣為流傳的說法是:
TPU由於其專用設計,只適合相對簡單的「推理」(Inference),而複雜龐大的模型「訓練」(Training)則必須依賴通用性更強的GPU。
這種說法,也不能說錯,但也總有哪裡不太對。
說它是「錯誤」,是因為Google的王牌模型Gemini,從誕生到現在稱霸,其訓練過程完全由自家的TPU晶片驅動。
這證明了:TPU可以訓練頂級模型。
但說它是「正確」,是因為對於Google之外的幾乎所有公司而言,可能的確只能用GPU進行訓練。
為何同一件事,在Google手上是稱霸的武器,在別人手裡卻玩不轉?
▋Gemini的「三部曲」登頂之路
首先,讓我們看看Google是如何用事實證明「TPU可以訓練」這個命題的。Gemini的演進史,就是TPU訓練能力的最佳宣言。
第一部曲:Gemini 1.0 (2023年12月) — 概念驗證的宣言
這是一切的轉捩點。在此之前,儘管Google自2016年起就開始研發TPU,但其頂級模型的訓練往往仍依賴GPU與TPU的混合集群。
Gemini 1.0的誕生,標誌著Google首次完全使用自家的TPU v4和v5e晶片,成功訓練出一個前沿模型。
第二部曲:Gemini 2.0 (2024年12月) — 規模化複製的擴張
如果說第一代是證明「可以」,那麼第二代就是證明「可以被複製和擴展」。隨著第六代TPU晶片「Trillium」的推出,其訓練性能比前代提升了四倍以上。
Gemini 2.0的訓練和推理100%在TPU上完成,部署規模擴大到超過10萬顆Trillium晶片。
這一步,展示了Google TPU戰略的穩定性和可擴展性,證明了Gemini 1.0的成功並非偶然,而是一個可持續、可放大的勝利。
第三部曲:Gemini 3.0 (2025年11月) — 登頂稱王的加冕
時間點去到現在,也是引起最多爭論的地方。
Gemini 3.0完全在最新一代的TPU晶片上訓練完成,其性能在多個權威的第三方AI基準測試中登頂,甚至超越了那些在NVIDIA GPU上訓練的頂級模型。
▋破解「TPU僅限推理」的迷思
現在,讓我們回到那個「TPU僅限推理,GPU才能訓練」的說法。
這個說法之所以廣為流傳,部分原因在於Google自身的戰略選擇。
其最新的TPU v7 Ironwood,就被明確定義為「為推理時代打造的第一款TPU」。
它的設計目標極為清晰:為Google搜尋等即時應用提供極低延遲的響應,並針對大規模語言模型(LLM)和混合專家模型(MoE)進行深度優化。
但這是否意味著TPU就不能訓練了?恰恰相反。
TPU並非只能做一件事的晶片,它的整個架構(如脈動陣列 Systolic Array)都是為了AI運算中最核心、最頻繁的操作而設計的。
它透過一次性載入數據,讓數據在龐大的運算單元之間直接流動,極大地減少了對記憶體的反覆讀寫。
這使得TPU在執行AI任務時,能將更多的時間花在「計算」本身,而非「等待數據」,從而達到驚人的能效比。
相比之下,GPU擁有數千個通用核心,功能強大且靈活,能應對各種並行計算任務。但正是這種「通用性」,使得它在處理純粹的AI運算時,必然會有一些架構上的冗餘和效率損耗。
因此,Gemini的「三部曲」證明了:TPU並非不能訓練,而是它在「訓練」和「推理」這兩條AI核心賽道上,都表現得像一輛F1賽車一樣極致高效。
Google之所以將Ironwood的宣傳重點放在「推理」,是因為推理是AI商業化應用中成本佔比最大(約90%)、規模最廣的環節,也是他們希望能勝出的戰場。
▋真正的枷鎖是經濟學與風險
那麼,為何市場普遍認為ASIC(TPU是其中一種)「只適合推理」?
答案是:這句話在技術上不準確,但在經濟學上卻非常準確。
這種看法的根源,來自於專用晶片(ASIC)與通用晶片(GPU)之間,在架構、市場和成本上的根本性權衡。
架構的根本衝突:訓練求「變」,ASIC求「穩」。
- 訓練需要靈活性: AI研究日新月異,研究人員每天都在實驗新的網路架構、注意力機制和優化器。訓練過程充滿了探索和不確定性。
- ASIC為固定而生: ASIC的本質是將一個「固定」的演算法「硬化」到晶片上,以換取極致的效率。如果你為今天的訓練演算法投入數億美元製造了一款ASIC,而明天演算法被顛覆,這批晶片可能瞬間變成一堆昂貴的「矽磚」。這種「沉沒資產風險」是災難性的。
- 推理是穩定的: 一旦模型訓練完成,其推理過程就是固定的前向傳播。計算模式是確定且重複的,這正是ASIC發揮專長的的理想場景。
2. 市場經濟的理性選擇:推理的巨大回報 vs. 訓練的一次性賭博。
- AI模型生命週期中,超過90%的算力成本消耗在「推理」上。一個超大規模模型(Hyperscaler)可能只訓練一次,但每天需要服務數十億次的推理請求。
- 因此,為推理設計的ASIC擁有巨大的投資回報率(ROI)。這也解釋了為何像Broadcom和Marvell這樣的公司,能夠圍繞推理ASIC建立起數十億美元的業務。
- 相比之下,投資一款專用訓練ASIC,就像一場高風險、低頻次的一次性賭博,經濟上極不划算。
3. 成本優化的陷阱:訓練ASIC的「名不副實」。
- 推理專用ASIC能達到比GPU高上不少的能效比,正是因為它拋棄了所有非必需的組件:它可以使用更低的數據精度,硬化特定的運算核心,並移除與反向傳播無關的複雜邏輯。
- 而一款能夠訓練的ASIC,則必須保留高精度浮點運算、支持反向傳播、具備靈活的控制流……這恰恰削弱了ASIC「專用化」帶來的核心優勢,使其變得「名不副實」。
▋Google的破局之道:以「垂直整合」化解風險
那麼,為甚麼Google卻可以用TPU來訓練?
因為Google同時設計TPU硬體和Gemini的訓練演算法,它可以讓兩者同步演進,形成一個內部閉環。
如果Google的研究人員發現了更優的訓練技術,他們可以立即反饋給硬體團隊,在下一代TPU中進行優化。
TPU部署在Google自家的數據中心,由Google完全掌控,不存在「外部客戶」的概念。(當然如果之後Meta真的購買TPU,就是另一境象了)
▋結論:一場屬於「系統整合者」的特權遊戲
所以,讓我們回到最初的問題:ASIC(如TPU)真的不能用於訓練嗎?
一個更準確的說法是:在絕大多數商業情境下,專為「訓練」設計的ASIC,是一場極其不理性的賭博。
對於幾乎所有公司而言,投入巨資開發一款可能在幾個月內就因演算法變更而過時的訓練晶片,是不可想像的。因此,選擇更靈活、生態更成熟的GPU,是唯一理性的商業決策。
Google之所以能成為那個唯一的例外,並非單純因為它的晶片設計能力,而是因為它建立了一個龐大且封閉的「垂直整合生態系」。在這個生態系中,Google的硬體(TPU)和演算法(Gemini)同步演進、深度綁定。
這也完美解釋了為什麼這項「特權」無法輕易複製或出售。
Meta有可能放棄自己的研究路線,去被動適應Google的硬體和軟體框架嗎?至少在訓練上並不可能去賭,最多在推論上可以先試試。
因此,在AI的牌桌上,用ASIC進行大規模模型訓練,並非單純的技術問題,而是一個關乎商業模式與生態掌控權的戰略問題。
暫時,這仍是一場專屬於Google的特權遊戲。
- KP
p.s. 我剛在Substack發布了近兩萬字的深度報告,獨家剖析 Google x TPU x Broadcom,以及大家爭論不休的「究竟TPU能否取代GPU」。這篇文章將徹底改變您對這場晶片戰爭的看法。
立即訂閱,讓您的投資洞察力,領先市場一步。


沒有留言: