在周三 (22 日) 舉行的 Google Cloud Next 2026 大會上,谷歌(GOOGL.US) 正式發布其第八代張量處理器 (TPU) 的兩款全新產品,專為 AI 模型訓練設計的 TPU 8t 與專為推理優化的 TPU 8i,這是谷歌史上首次將訓練與推理任務拆分至獨立晶片,標誌著其 AI 硬體策略的重大轉向。
谷歌兩款晶片均打算在今年稍晚正式對外供應,旨在透過專項優化應對日益分化的 AI 工作負載,並以更具成本效益的方式提供大規模吞吐量和低延遲,滿足數百萬個 AI 智能體同時運行的需求。
谷歌此次戰略調整是對 AI 計算特性分化的直接回應。隨著 AI 智能體興起,預訓練、後訓練與即時推理在運算需求上已顯著不同;訓練任務追求極致的吞吐量與規模擴展,而推理任務則對延遲和並發更為敏感。
谷歌資深副總裁兼 AI 與基礎設施技術長 Amin Vahdat 指出,業界將受惠於針對這兩類需求專門優化的晶片。
Alphabet 執行長皮查伊也強調,這項架構旨在以低成本提供大規模算力。從市場角度來看,統一晶片往往導致某一場景下的資源浪費,而雙晶片策略能顯著提升價格效能比,降低雲端 AI 基礎設施的整體擁有成本。
在效能數據上,第八代 TPU 相比去年 11 月發布的第七代 Ironwood 有了巨大飛躍。 TPU 8t 在同等價格下效能提升 2.8 倍,TPU 8i 效能提升 80%,兩款晶片的能源效率表現特別亮眼,
此外,每瓦效能均較上一代提升逾一倍,其中 TPU 8t 達到 124%,TPU 8i 達到 117%,兩款晶片均整合了基於安謀架構的 Axion CPU,以消除資料預處理延遲造成的主機側瓶頸,確保 TPU 運算單位持續滿載運作。第八代 TPU 延續了成熟的軟體體系,支援 JAX、PyTorch、Keras 及 vLLM 等主流框架,原生 PyTorch 支援現已進入預覽階段,使用者可直接遷移模型而無需修改程式碼。
TPU 8t 定位為超大規模訓練的算力引擎,號稱能將前沿模型的開發週期從數月壓縮至數週。
在規模上,它最多可將 9600 塊晶片組合為單一超級運算節點,並透過 JAX 與 Pathways 框架將分散式訓練擴展至單一集群超過 100 萬塊晶片,其核心技術創新包括:專門處理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍並降低能耗),以及更均衡的向量處理單元擴展設計。
網路層面引進了全新的 Virgo 架構,資料中心網路頻寬提升最高 4 倍,晶片間互聯頻寬提升 2 倍,單一網路可連接逾 13.4 萬個晶片。
儲存方面則透過 TPUDirect 技術繞過 CPU 直接傳輸數據,存取速度提升 10 倍,確保處理大規模多模態資料集時算力不閒置。
TPU 8i 則面向高並發推理場景,重心在於降低延遲與提升並發處理能力,其最顯著的硬體特徵是整合了 384MB 靜態隨機存取記憶體,容量是上一代的三倍,可將更大的 KV Cache 保留在片上,大幅減少長上下文解碼的等待時間。
此外,它引入了集合加速引擎 (CAE),專門加速自回歸解碼與思維鏈處理,使片上集合操作延遲降低 5 倍。
在網路拓撲上,TPU 8i 放棄了傳統的 3D 環面結構,轉而採用全新的 Boardfly 互聯拓撲,將最大跳數壓縮至 7 跳,全對全通訊延遲改善最高 50%,這對混合專家模型和頻繁的跨晶片令牌路由極為有利。TPU 8i 的 Pod 規模可擴展至 1152 塊晶片,透過光學電路交換器實現組間互聯。
此次發布不僅展示谷歌在晶片設計上的技術深度,也反映其供應鏈策略的調整。
TPU 8t 由博通共同設計,主打極致性能,TPU 8i 則首次牽手聯發科,旨在優化成本與效率。
《華爾街見聞》報導指出,這種雙軌策略不僅讓谷歌能分別針對訓練和推理做深度定制,實現性能與成本的最優解,也透過多供應商佈局打破了單一供應源的溢價與產能風險。
隨著 AI 算力重心從訓練全面轉向推理,谷歌憑藉這一軟硬一體的全端佈局,正試圖在輝達 (NVDA.US) 主導的市場中,透過極致性價比和專用化設計搶佔更多企業級 AI 市佔率。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網