DeepSeek-V3.2-Exp模型正式發佈並開源,模型引入稀疏Attention架構。華為雲表示已第一時間完成對DeepSeek-V3.2-Exp模型的適配工作。基於稀疏Attention結構疊加實現長序列親和的上下文並行策略,並兼顧模型時延和吞吐性能,最大可支持160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業及開發者提供模型體驗和API服務。(ta/w)