DeepSeek本周為開源周,並將連續開源五個軟件庫,繼日前宣布開源MLA解碼核FlashMLA以及DeepEP兩款代碼庫後,今日(26日)再開放DeepGEMM代碼庫。
據悉,DeepGEMM是專為簡潔高效的FP8通用矩陣乘法(GEMMs)而設計,同時支援普通的和專家混合(MoE)分組的GEMM運算。該庫使用CUDA編寫,在安裝過程中無需編譯,通過在運行時使用輕量級即時編譯模塊來編譯所有內核。
目前,DeepGEMM僅支援英偉達(NVDA.US) Hopper架構運算,為解決FP8張量核心累加不精確的問題,它採用CUDA核心的兩級累加(提升)方法。該代碼庫只有一個核心內核函數,代碼量約為300行。(jl/da)(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)
AASTOCKS新聞