外電報導指出,Alphabet(GOOGL.US) 旗下 Google 在拉斯維加斯舉行的 Google Cloud Next 2026 大會上,正式發布第八代張量處理器 (TPU),首度將 AI 訓練與推理任務拆分為兩款獨立晶片 TPU 8t 與 TPU 8i,標誌其 AI 硬體策略出現重大轉向,並聯手博通(AVGO.US) 與 MediaTek 深化合作,正面挑戰輝達 (NVDA.US) 在 AI 晶片市場的主導地位。
Google 同時宣布,第七代 TPU Ironwood 已正式開放雲端客戶使用,並預告將於 2026 年下半年成為首家提供輝達新一代 Vera Rubin NVL72 超級電腦的雲端服務商,顯示其在自研晶片與外部合作間採取雙軌策略。
在架構策略上,Google 此次拆分訓練與推理晶片,主要因應 AI 運算負載的快速分化。公司 AI 與基礎設施高級副總裁指出,隨 AI 代理 (agents) 興起,訓練與推理需求已呈現不同優化方向。訓練側重高吞吐量與大規模擴展能力,可支援數週至數月的萬億參數模型訓練;推理則強調低延遲與高併發,以應對數百萬 AI 代理同時運作情境。
TPU 8t 作為訓練用旗艦晶片,由 Google 與博通共同設計,單一超級運算節點最多可整合 9,600 顆晶片,搭配 2PB 高頻寬記憶體,每個 Pod 運算效能達 121 exaflops(FP4),較上一代提升約 3 倍,在相同價格下效能提升 2.8 倍。透過 JAX 與 Pathways 框架,訓練規模可擴展至超過 100 萬顆晶片集群。
在技術細節方面,TPU 8t 採用雙運算晶粒與單 I/O 晶粒架構,搭載 8 組 HBM3e 高頻寬記憶體,並導入 SparseCore 專用加速器處理不規則記憶體存取,同時支援原生 FP4 精度,使矩陣運算吞吐量倍增。Google 亦開發 Virgo 互聯架構,使資料中心網路頻寬提升至前代 4 倍,單套網路可互聯 13.4 萬顆晶片,二分頻寬達 47Pbps,晶片間頻寬提升 2 倍,並透過直連儲存與 RDMA 技術將存取速度提升 10 倍。
推理晶片 TPU 8i 則由 Google 與 MediaTek 合作開發,專為高併發 AI 應用設計。單一 Pod 可擴展至 1,152 顆晶片,提供 11.6 exaflops(FP8) 算力,在相同價格下效能較前代提升 80%,每瓦效能提升 117%。其最大特色為搭載 384MB 片上 SRAM,是前代三倍,可大幅降低延遲並提升長上下文生成效率。
TPU 8i 亦引入集合通訊加速引擎 (CAE),將多核心結果聚合延遲降低至近乎零,整體通訊延遲較前代下降 5 倍。網路架構方面,放棄傳統 3D 環形拓樸,改採 Boardfly 互聯架構,使最大通訊跳數由 16 次降至 7 次,網路直徑縮減 56%,全對全通訊延遲改善最高 50%,對混合專家模型(MoE) 尤為關鍵。
兩款晶片均採用 TSMC(TSM.US) 2 奈米製程,並搭載 Google 自研 Arm 架構 Axion CPU,解決資料預處理瓶頸,預計 2027 年底量產,並配合第四代液冷技術提升散熱效率。在軟體生態上,第八代 TPU 支援 JAX、PyTorch、Keras 與 vLLM 等主流框架,其中原生 PyTorch 支援已進入預覽階段。
市場採用方面,Anthropic 已承諾導入數 GW 等級 TPU 算力,並計劃於 2027 年擴展至 3.5GW 規模,成為關鍵客戶之一。此外,Citadel Securities 已利用 TPU 建構量化研究平台,美國能源部旗下 17 個國家實驗室亦全面採用 TPU 相關 AI 系統。
分析師指出,Google 透過將 TPU「一拆為二」,有效對應 AI 訓練與推理需求分化趨勢,可顯著提升特定場景的算力效率與成本效益,並強化其在雲端 AI 基礎設施市場的競爭力。隨著 AI 投資持續升溫,晶片架構創新與生態整合將成為決定產業勝負的關鍵。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網