DeepSeek發布最新技術論文《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)。論文署名中,DeepSeek創始人梁文鋒也作為共創在列。
該論文提出一種名為NSA(Natively Sparse Attention),即「原生稀疏注意力」的新型注意力機制。NSA是一種用於超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制。據分析,在64K長文本場景下,NSA實現解碼速度提升11.6倍、前向傳播9倍加速及反向傳播6倍加速。(ta/w)
AASTOCKS新聞