2月16日,DeepSeek研究團(tuán)隊(duì)在arXiv上發(fā)表論文,提出了一種全新的注意力機(jī)制架構(gòu)NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓(xùn)練和推斷而設(shè)計(jì),具有硬件對齊的特點(diǎn),梁文鋒參與共創(chuàng)。
(科技日報(bào) 趙衛(wèi)華 李忠明)
2月16日,DeepSeek研究團(tuán)隊(duì)在arXiv上發(fā)表論文,提出了一種全新的注意力機(jī)制架構(gòu)NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓(xùn)練和推斷而設(shè)計(jì),具有硬件對齊的特點(diǎn),梁文鋒參與共創(chuàng)。
(科技日報(bào) 趙衛(wèi)華 李忠明)